1. 概率论

与之相关的有概率论的一些知识,这里先做简单知识复习。

1.1 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么 P ( A B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)}{P(B)} P(AB)=P(B)P(AB)设E 为随机试验,Ω 为样本空间,A,B 为任意两个事件,设P(A)>0,称 P ( B A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)}{P(A)} P(BA)=P(A)P(AB)为在“事件A 发生”的条件下事件B 的条件概率。上述乘法公式可推广到任意有穷多个事件时的情况。设 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An为任意n个实践(n>=2)且 P ( A 1 A 2 . . . A n ) > 0 P(A_1A_2...A_n)>0 P(A1A2...An)>0,则 P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 A 1 ) . . . P ( A n A 1 A 2 . . . A n 1 ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)...P(A_n|A_1A_2...A_{n-1}) P(A1A2...An)=P(A1)P(A2A1)...P(AnA1A2...An1)

1.2 全概率公式

定义:(完备事件组/样本空间的划分)
设B1,B2,…Bn是一组事件,若
(1) i j ϵ { 1 , 2 , . . . n } , B i n B j = \forall_i \neq j \epsilon \{1,2,...n\},B_inB_j= \emptyset i̸=jϵ{1,2,...n},BinBj=
(2)B1∪B2∪…∪Bn=Ω
则称B1,B2,…Bn样本空间Ω的一个划分,或称为样本空间Ω 的一个完备事件组。
定理(全概率公式)
设事件组 { B } \{B\} {B}是样本空间Ω 的一个划分,且P(Bi)>0(i=1,2,…n)则对任一事件B,有 P ( A ) = <munderover> i = 1 n </munderover> P ( B i ) P ( A B i ) P(A)=\sum_{i=1}^nP(B_i)P(A|B_i) P(A)=i=1nP(Bi)P(ABi)

1.3 贝叶斯公式

设B1,B2,…Bn…是一完备事件组,则对任一事件A,P(A)>0,有 P ( B i A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A B i ) <munder> i </munder> P ( B i ) P ( A B i ) P(B_i|A)=\frac {P(AB_i)}{P(A)}=\frac {P(B_i)P(A|B_i)}{\sum_i P(B_i)P(A|B_i)} P(BiA)=P(A)P(ABi)=iP(Bi)P(ABi)P(Bi)P(ABi)

1.4 独立性

当且仅当两个随机事件A与B满足P(A∩B)=P(A)P(B)的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。同样,对于两个独立事件A与B有P(A|B)=P(A)以及P(B|A)=P(B)换句话说,如果A与B是相互独立的,那么A在B这个前提下的条件概率就是A自身的概率;同样,B在A的前提下的条件概率就是B自身的概率。

2. 简单图分析(简单贝叶斯网络独立性分析)


P ( A , B , C ) = P ( C A , B ) P ( B A ) P ( A ) P(A,B,C)=P(C|A,B)P(B|A)P(A) P(A,B,C)=P(CA,B)P(BA)P(A) 这个是对上面图的简单表示三个变量a,b,c的联合概率分布。对这个简单图有一定了解后深入了解会的到下列几个有趣的结论,后面可能会用到。

即 :在c给定的条件下,a,b被阻断(blocked)是独立的。

即 :在c给定的条件下,a,b被阻断(blocked)是独立的。

即 :而对于上图,在c未知的条件下,a,b被阻断(blocked)是独立的。
上面都是可以根据基本公式推导出来,如果感兴趣可以参考 : PRML 模式识别与机器学习

3. 朴素贝叶斯

朴素贝叶斯(Naive Bayes,NB)是基于 “特征之间是独立的” 这一朴素假设,应用贝叶斯定理的监督学习算法。

朴素贝叶斯的推导

  • 对于给定的特征向量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
  • 类别 y 的概率可以依据贝叶斯公式得到: P ( y x 1 , x 2 , . . . , x n ) = P ( y ) P ( x 1 , x 2 , . . . , x n y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)} P(yx1,x2,...,xn)=P(x1,x2,...,xn)P(y)P(x1,x2,...,xny)
  • 使用朴素的独立性假设: P ( x i y , x 1 , x 2 , . . . , x n ) = P ( x i y ) P(x_i|y,x_1,x_2,...,x_n)=P(x_i|y) P(xiy,x1,x2,...,xn)=P(xiy)
  • 类别 y 的概率可简化为: P ( y x 1 , x 2 , . . . , x n ) = P ( y ) P ( x 1 , x 2 , . . . , x n y ) P ( x 1 , x 2 , . . . , x n ) = P ( y ) <munderover> i = 1 n </munderover> P ( x i y ) P ( x 1 , x 2 . . . , x n ) P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)}=\frac{P(y) \prod_{i=1}^nP(x_i|y)}{P(x_1,x_2...,x_n)} P(yx1,x2,...,xn)=P(x1,x2,...,xn)P(y)P(x1,x2,...,xny)=P(x1,x2...,xn)P(y)i=1nP(xiy)
  • 在给定样本的前提下, P ( x 1 , x 2 . . . , x n ) P(x_1,x_2...,x_n) P(x1,x2...,xn)是常数: P ( y x 1 , x 2 , . . . , x n ) P ( y ) <munderover> i = 1 n </munderover> P ( x i y ) P(y|x_1,x_2,...,x_n)\infty P(y)\prod_{i=1}^nP(x_i|y) P(yx1,x2,...,xn)P(y)i=1nP(xiy)
  • 从而有 <mover accent="true"> y ^ </mover> = a r g m a x P ( y ) <munderover> i = 1 n </munderover> P ( x i y ) \hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y) y^=argmaxP(y)i=1nP(xiy)

3.1 高斯朴素贝叶斯(Gaussian Naive Bayes)

  • 根据样本使用MAP估计 P ( y ) P(y) P(y),建立合理的模型估计 P ( x i y ) P(x_i|y) P(xiy),从而得到样本的类别。 <mover accent="true"> y ^ </mover> = a r g m a x P ( y ) <munderover> i = 1 n </munderover> P ( x i y ) \hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y) y^=argmaxP(y)i=1nP(xiy)
  • 假设特征服从高斯分布,即: P ( x i y ) = 1 2 π σ y e x p ( ( x i μ y ) 2 2 σ y 2 ) P(x_i|y)=\frac{1}{\sqrt{2π}\sigma_y }exp \left(-\frac{(x_i-\mu_y)^2}{2\sigma_y^2}\right) P(xiy)=2π σy1exp(2σy2(xiμy)2)
    参数估计使用MLE极大似然就可以

3.2 多项分布朴素贝叶斯(Multinomial Native Bayes)

  • 假设特征服从多项分布,从而,对每个类别y,参数为 θ y = ( θ y 1 , θ y 2 , . . . , θ y n ) \theta_y=(\theta_{y1},\theta_{y2},...,\theta_{yn}) θy=(θy1,θy2,...,θyn),其中n为特征的数目, P ( x i y ) P(x_i|y) P(xiy)的概率为 θ y i \theta_{yi} θyi
  • 参数 θ y \theta_y θy使用MLE估计的结果为: <mover accent="true"> θ y i ^ </mover> = N y i + α N y + α n , α 0 \hat{\theta_{yi}}=\frac{N_{yi}+\alpha}{N_y+\alpha \cdot n}, \alpha\geq0 θyi^=Ny+αnNyi+α,α0
  • 假定训练集为 T T T,有: N y i = <munder> x ϵ T </munder> x i , N y = <munderover> i = 1 a </munderover> N y i N_{yi}=\sum_{x\epsilon T}x_i, N_{y}=\sum_{i=1}^{|a|}N_{yi} Nyi=xϵTxi,Ny=i=1aNyi
  • 其中 α = 1 \alpha=1 α=1称为Laplace平滑, α &lt; 1 \alpha&lt;1 α<1称为Lidstone平滑。