Beta分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。
贝塔分布中的参数可以理解为伪计数,伯努利分布的似然函数可以表示为,表示一次事件发生的概率,它为贝塔有相同的形式,因此可以用贝塔分布作为其先验分布。—–百度百科
概率密度函数 <nobr> 0<x<1 </nobr>
<nobr> f(x;α,β)=xα−1(1−x)β−1∫10uα−1(1−u)β−1du=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1=1B(α,β)xα−1(1−x)β−1 </nobr>
这里, <nobr> B(α,β)=Γ(α)Γ(β)Γ(α+β) </nobr>是一个归一化常数,确保总概率是1。
<nobr> Γ(n+1)=n! </nobr>
推导先验参数为均匀分布的二项分布的后验分布
参数为 <nobr> θ </nobr>的n次独立重复的似然函数为 <nobr> f(y|θ)=θ∑yi(1−θ)n−∑yi </nobr>,
参数 <nobr> θ </nobr>的先验分布为0-1均匀分布,当 <nobr> θ </nobr>取值为0,1之间时,其概率密度函数始终为常数1, <nobr> f(θ)=1 </nobr>。
现在来看后验分布,
<nobr> f(θ|y)=f(y|θ)f(θ)∫f(y|θ)f(θ)dθ=θ∑yi(1−θ)n−∑yi∫10θ∑yi(1−θ)n−∑yidθ </nobr>
还记得上面说的Beta分布的概率密度函数吗,我们现在对分母进行等价变换,凑出一个Beta分布的概率密度函数的形式,
<nobr> f(θ|y)=θ∑yi(1−θ)n−∑yiB(∑yi+1,n−∑yi+1)∫101B(∑yi+1,n−∑yi+1)θ∑yi(1−θ)n−∑yidθ </nobr>分母中右侧一项为一个Beta分布的概率密度函数在0,1区间上的积分,可以直接得出其结果为1。上式化简为 <nobr> f(θ|y)=θ∑yi(1−θ)n−∑yiB(∑yi+1,n−∑yi+1) </nobr>,这说明后验分布的是Beta分布,
得出 <nobr> θ|y∼Beta(∑yi+1,n−∑yi+1)) </nobr>
共轭先验
在贝叶斯框架下,如果后验概率分布 <nobr> P(θ|x) </nobr>和先验概率 <nobr> P(θ) </nobr>满足相同形式的分布律。则先验分布和后验分布为共轭分布,先验分布叫做似然函数的共轭先验分布。
现在看下参数先验为Beta分布的伯努利分布的后验分布
<nobr> f(θ)=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1 </nobr>
<nobr> f(θ|y)∝f(y|θ)f(θ)=θ∑yi(1−θ)n−∑yiΓ(α+β)Γ(α)Γ(β)θα−1(1−θ)β−1∝θα+∑yi−1(1−θ)β+n−∑yi−1 </nobr>
即
<nobr> θ|y∼Beta(a+∑yi,β+n−∑yi) </nobr>
可以看到,对于伯努利分布(二项分布)来说,当参数的先验分布为Beta分布时,其后验分布也是Beta分布。我们说二项分布的共轭先验是Beta分布。
特别地,当Beta分布为Beta(1,1)时,退化为0-1区间上的均匀分布。
后验均值和有效样本数
对于先验分布Beta(a,b),有效样本量为a+b, <nobr> θ </nobr>的期望为 <nobr> αα+β </nobr>, <nobr> θ </nobr>后验的期望为 <nobr> a+∑yia+∑yi+β+n−∑yi=α+∑yiα+β+n=α+βα+β+n×αα+β+nα+β+n×∑yin </nobr>
解释为posterior mean = prior_weight * prior_mean + data_weight*data_mean
这可告诉我们多大的选取样本n可以让后验的权重更大一些。
泊松分布数据和Gamma分布
泊松分布
<nobr> P(X=k)=λkk!e−λ,k=0,1,… </nobr>
Gamma分布
假设随机变量X为等到第 <nobr> α </nobr>件事发生所需等待时间,那么X服从 <nobr> Γ(a,β) </nobr>,概率密度函数为
<nobr> f(x,α,β)=βαΓ(α)xα−1e−βx,x>0 </nobr>
参数 <nobr> α </nobr>称为形状(shape)参数, <nobr> β </nobr>为尺度(scale)参数。
<nobr> E(X)=aβ,Var(X)=aβ2 </nobr>
有效样本量 <nobr> β </nobr>
下面推导参数先验为Gamma分布的泊松分布的后验分布,
<nobr> f(λ|y)∝f(y|λ)f(λ)∝λ∑yie−nλλa−1e−βλ∝λa+∑yi−1e−(β+n)λ </nobr>
说明后验概率是 <nobr> Γ(a+∑yi,β+n) </nobr>
后验均值
<nobr> a+∑yiβ+n=ββ+n×aβ+nn+β×∑yin </nobr>
逆Gamma分布
如果随机变量 <nobr> X∼Gamma(a,β) </nobr>,则 <nobr> 1X∼Inv−Gamma(a,β) </nobr>
<nobr> IG(a,β) </nobr>,概率密度函数为
<nobr> f(x,α,β)=βαΓ(α)x−α−1e−βx,x>0 </nobr>