• 基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计而得.因此朴素贝叶斯分类器采用了"属性条件独立性假设"来避开这个障碍.
  • 朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进行"平滑",常用拉普拉斯修正.
  • 属性条件独立性假设在现实中往往很难成立,于是半朴素贝叶斯分类器采用"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于一个其他属性.在此基础上有SPODE,TAN,AODE等算法.
  • 贝叶斯网又称信念网,借助有向无环图来刻画属性之间的依赖关系,并用条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯网的一种特例.
  • EM(Expectation-Maximization)算法是常用的估计参数隐变量的方法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可方便地对参数θ做极大似然估计(M)