Q函数的定义
完全数据的对数似然函数logP(Y,Z∣θ)关于在给定观测数据Y和当前参数θ(i)下对未观测数据Z的条件概率分布P(Z∣Y,θ(i))的期望称为Q函数
Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)] 公式说明:
EZ[A]:A关于Z的期望
E[A|B]:在已知B的条件下A的期望,在这里已知的是“观测数据Y”和“当前参数θ(i)”。
$\log P(Y,Z|\theta)$:对数似然函数
为什么要引入Q函数
EM算法的目标是要极大化对数似然函数:
L(θ)=log(Z∑P(Y∣Z,θ)P(Z∣θ)) 但是对形如log∑这样的函数很难求极大化,最好转成对应的形如∑log的函数
转化对数似然函数
这里过程跟书上不太一样,能跟书上得出一样的结果,不知道对不对
L(θ)=log(Z∑P(Y∣Z,θ)P(Z∣θ))=log(Z∑P(Z∣Y,θ(i))P(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ)),#A=B∗BA≥Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ),#jensen不等式1 说明:
jensen不等式
在公式(1)中,f(x)=log(x),这是一个凹函数,所以满足不等式(2)
λi=P(Z∣Y,θ(i)),λi是条件概率,因此满足$\lambdai \gt 0$且$\sum_i\lambda_i=1$。
$$x_i = \frac{P(Y|Z, \theta)P(Z|\theta)}{P(Z|Y,\theta{(i)})}$$,等式左边的i为等式右边的Z
去掉常数项
现在已经转化了∑log形式的函数,得:
θ(i+1)=argθmax(Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ)) 要求θ(i+1)就需要让公式(1)对θ求导。
公式(1)中与θ无关的项不影响结果可以去掉
θ(i+1)=argθmax(Z∑P(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)−Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))=argθmax(Z∑P(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ))=argθmax(Z∑P(Z∣Y,θ(i))logP(Y,Z∣θ))=argθmaxQ(θ,θ(i))