贝叶斯公式,用来描述两个条件概率之间的关系。
朴素贝叶斯,加了一个朴素,就是说,各个特征之间是独立的,有时候数据不一定完全相互独立,所以会损失一定的准确率。
处理文本
one-hot编码:
是目前为止常用的词表示方法,先有一个词库,每个词对应一个onehot编码,也就是说每个词都是茫茫0海中1。
TF-IDE:
(TF)term-frequency 词频
(IDF)inverse document frequency 逆文档频率
统计语言模型与NLP算法设计
贝叶斯网络
HMM是隐含马尔科夫模型有两种变量,一个是状态变量(s)一个是观测变量(o)。
状态序列一般是隐藏的
马尔科夫链:
HMM的定义建立在两个假设上:1.假设隐藏的马尔科夫链在任意时刻的状态只依赖于前一个时刻的状态,与其他时刻的状态及观测无关。与时刻t也无关。
2.假设任意时刻的观测只依赖于该时刻的马尔科夫链状态,与其他的观测及状态无关。
一个隐含马尔科夫模型包括:状态空间S,观测空间O,以及参数λ={A,B,π}
HMM常用于预测问题:前向算法,维特比算法(用的比较多)
前向算法用于预测: 求联合概率,前向算法做加和处理。最后乘转移概率
维特比算法:在计算状态转移概率时取最大处理。最后乘转移概率
隐含马尔科夫模型:
马尔科夫链:是HMM里边的第二个M,
有向图模型(贝叶斯网络):用有向图表示变量间的依赖关系
无向图模型(马尔科夫网):用无向图表示变量间的相关关系
HMM是最简单的动态贝叶斯网络,对变量序列建模的一种贝叶斯网络。
HMM定义:是一个关于时序的概率模型,有两组变量分别是状态变量和观测变量
状态变量{s1,s2,....sr},其中st属于S,表示t时刻的状态系统
观测变量{o1,o2,....or},其中ot表示O,表示t时刻的观测值
状态变量和观测标量各自是一个时间序列,每一个状态/观测值都和一个时刻对应。
状态变量一般是隐藏的,不能被观测到,属于隐变量
HMM基本假设:第一个是齐次马尔科夫假设,观测独立性假设
HMM的两个空间和三个变量:
两个空间就是观测空间和状态空间