在机器学习的算法中,经常看到极大似然估计的身影,不接触数学一段时间的我,对它又熟悉又陌生,还是决定系统的写一下极大似然估计的思想。
  极大似然估计法是求点估计的常用方法之一。极大似然估计法是建立在已知总体分部形式上的估计方法。

1. 基本思想

思想:在给定样本观察值的条件下,用使这组样本观察值出现概率最大的参数 θ 的估计。
可能仅凭一句话还不好理解,下面我们看一个例子

  设一个口袋中装有许多个白球和黑球,但不知道是黑球多还是白球多,只知道两种颜色球的数目之比是1:3。从袋中任取一球,取得黑球的概率 θ 是 1/4 或 3/4 。试通过实验来推断抽到黑球的概率 θ 取 1/4 或 3/4 哪个值更合理。
  
  总体X服从两点分布B(1,θ),参数空间为Θ = {1/4 , 3/4},θ ∈ Θ。采用有放回抽样方式,从袋中抽取n次,每次抽取一个球,抽到黑球记为1,否则记为0,得到样本 X1,X2,…,Xn的观察值 x1,x2,…,xn,其发生的概率为

p(x1,x2,...,xn ; θ) = θ^k *(1 - θ)^(n - k)
其中 k = x1 + x2 + ... + xn。
为了解释极大似然估计法的原理,仅考虑n = 3的情形。给定观察值x1,x2,x3,对 θ = 1/4 和 3/4 ,分别计算样本联合分布列p(k ;θ)= p(x1,x2,x3;θ),其结果如下:
表n = 3时样本联合分布列
k 0 1 2 3
p(1/4;θ) 27/64 9/64 3/64 1/64
p(3/4;θ) 1/64 3/64 9/64 27/64

  由表可知,若抽取的3个球中观察到黑球个数k=0,当θ = 1/4 时,p(0;1/4) = 27/64;而当θ = 3/4 时,p(0;3/4) =1/64。显然 p(0;1/4)> p(0;3/4),这表明使 k = 0的样本x1,x2,x3来自参数 θ = 1/4 的总体要比来自 θ = 3/4的总体的可能性更大。因而,取1/4作为 θ的估计比取3/4作为θ的估计更合理。类似地,当k=1时,同样取1/4作为θ的估计比取3/4更合理。而当k=2或3时,取3/4作为θ的估计比取1/4更合理。综上所述,参数θ的合理估计为:

  上述估计参数θ的基本思想是:对样本观察值x1,x2,…,xn,选取最优θ(x1,x2,…,xn)使得

成立,即在给定样本观察值的条件下,用使这组样本观察值出现概率最大参数 θ 的估计。

  既然我们知道极大似然估计是寻找发生概率最大所对应的θ值,我们就看一下求解形式吧!
  假设总体分布族为{p(x;θ):θ ∈ Θ},其中p(x;θ)为概率分布列密度函数为f(x;θ)。x1,x2,…,xn是简单样本,则样本的联合概率分布为:

① 离散型随机变量


② 连续型随机变量

当样本x1,x2,…,xn给定时,p(x1,x2,…,xn;θ)是参数θ的函数,称这个函数为似然函数,记为L(θ;x1,x2,…,xn),或L(θ;x),或L(θ),即

2. 求解似然函数最大值的依据

  最大值未必存在,但上确界总是存在,当最大值存在时,上确界和最大值重合。求参数θ的极大似然估计,就是求使似然函数L(θ)在参数空间Θ上取得上确界的
  由于lnx是x的单调增函数,因为Ln L(θ)与L(θ)在相同的点上取得上确界,成Ln L(θ)为对数似然函数。特别的,当Ln L(θ)在Θ上存在连续偏导数,并在Θ内取得最大值时,θ的极大似然函数必满足方程组:

称它为似然方程组。如果似然方程组的解使得上式成立,则就是参数θ的极大似然估计

3. 求解步骤

基于对似然函数L(θ)形式(一般为连乘式且各因式>0)的考虑,求θ的最大似然估计的一般步骤如下:

(1)写出似然函数
总体X为离散型时:

总体X为连续型时:

(2)对似然函数两边取对数有
总体X为离散型时:

总体X为连续型时:

(3)对Ln L(θ)求偏导等于0:

此方程为对数似然方程。解对数似然方程所得,即为未知参数 的最大似然估计值。

例题:

设总体X~N(μ,σ2),μ,σ为未知参数,X1,X2…,Xn是来自总体X的样本,X1,X2…,Xn是对应的样本值,求μ与σ2的最大似然估计值。

:X的概率密度为

可得似然函数如下:

取对数,得




解得


故μ和σ的最大似然估计量分别为