Beta分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。
贝塔分布中的参数可以理解为伪计数,伯努利分布的似然函数可以表示为,表示一次事件发生的概率,它为贝塔有相同的形式,因此可以用贝塔分布作为其先验分布。—–百度百科
概率密度函数 <nobr> 0<x<1 </nobr>
<nobr> f(x;α,β)=xα1(1x)β110uα1(1u)β1du=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1=1B(α,β)xα1(1x)β1 </nobr>
这里, <nobr> B(α,β)=Γ(α)Γ(β)Γ(α+β) </nobr>是一个归一化常数,确保总概率是1。
<nobr> Γ(n+1)=n! </nobr>

推导先验参数为均匀分布的二项分布的后验分布

参数为 <nobr> θ </nobr>的n次独立重复的似然函数为 <nobr> f(y|θ)=θyi(1θ)nyi </nobr>
参数 <nobr> θ </nobr>的先验分布为0-1均匀分布,当 <nobr> θ </nobr>取值为0,1之间时,其概率密度函数始终为常数1, <nobr> f(θ)=1 </nobr>
现在来看后验分布,
<nobr> f(θ|y)=f(y|θ)f(θ)f(y|θ)f(θ)dθ=θyi(1θ)nyi10θyi(1θ)nyidθ </nobr>
还记得上面说的Beta分布的概率密度函数吗,我们现在对分母进行等价变换,凑出一个Beta分布的概率密度函数的形式,
<nobr> f(θ|y)=θyi(1θ)nyiB(yi+1,nyi+1)101B(yi+1,nyi+1)θyi(1θ)nyidθ </nobr>分母中右侧一项为一个Beta分布的概率密度函数在0,1区间上的积分,可以直接得出其结果为1。上式化简为 <nobr> f(θ|y)=θyi(1θ)nyiB(yi+1,nyi+1) </nobr>,这说明后验分布的是Beta分布,
得出 <nobr> θ|yBeta(yi+1,nyi+1)) </nobr>

共轭先验

在贝叶斯框架下,如果后验概率分布 <nobr> P(θ|x) </nobr>和先验概率 <nobr> P(θ) </nobr>满足相同形式的分布律。则先验分布和后验分布为共轭分布,先验分布叫做似然函数的共轭先验分布
现在看下参数先验为Beta分布的伯努利分布的后验分布
<nobr> f(θ)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1 </nobr>
<nobr> f(θ|y)f(y|θ)f(θ)=θyi(1θ)nyiΓ(α+β)Γ(α)Γ(β)θα1(1θ)β1θα+yi1(1θ)β+nyi1 </nobr>

<nobr> θ|yBeta(a+yi,β+nyi) </nobr>
可以看到,对于伯努利分布(二项分布)来说,当参数的先验分布为Beta分布时,其后验分布也是Beta分布。我们说二项分布的共轭先验是Beta分布。
特别地,当Beta分布为Beta(1,1)时,退化为0-1区间上的均匀分布。

后验均值和有效样本数

对于先验分布Beta(a,b),有效样本量为a+b, <nobr> θ </nobr>的期望为 <nobr> αα+β </nobr> <nobr> θ </nobr>后验的期望为 <nobr> a+yia+yi+β+nyi=α+yiα+β+n=α+βα+β+n×αα+β+nα+β+n×yin </nobr>
解释为posterior mean = prior_weight * prior_mean + data_weight*data_mean
这可告诉我们多大的选取样本n可以让后验的权重更大一些。

泊松分布数据和Gamma分布

泊松分布
<nobr> P(X=k)=λkk!eλ,k=0,1, </nobr>
Gamma分布
假设随机变量X为等到第 <nobr> α </nobr>件事发生所需等待时间,那么X服从 <nobr> Γ(a,β) </nobr>,概率密度函数为
<nobr> f(x,α,β)=βαΓ(α)xα1eβx,x>0 </nobr>
参数 <nobr> α </nobr>称为形状(shape)参数, <nobr> β </nobr>为尺度(scale)参数。
<nobr> E(X)=aβ,Var(X)=aβ2 </nobr>
有效样本量 <nobr> β </nobr>
下面推导参数先验为Gamma分布的泊松分布的后验分布,
<nobr> f(λ|y)f(y|λ)f(λ)λyienλλa1eβλλa+yi1e(β+n)λ </nobr>
说明后验概率是 <nobr> Γ(a+yi,β+n) </nobr>
后验均值
<nobr> a+yiβ+n=ββ+n×aβ+nn+β×yin </nobr>

逆Gamma分布

如果随机变量 <nobr> XGamma(a,β) </nobr>,则 <nobr> 1XInvGamma(a,β) </nobr>
<nobr> IG(a,β) </nobr>,概率密度函数为
<nobr> f(x,α,β)=βαΓ(α)xα1eβx,x>0 </nobr>