似然
假设真实存在一组数据集X = {x1, x2 , ..., xm}
X服从概率分布p(x∣θ),参数θ未知。
那么似然为真实存在的数据X发生的概率。用带参数θ的函数来表示这个概率为:
P(X;θ)=P(x(1)∣θ)P(x(2)∣θ)⋯P(x(m)∣θ)1 最大似然估计
由公式(1)知X发生的可能性与参数θ有关。
我们希望X发生的可能性最大。
因此要找到一个合适的参数θ,使得P(X;\theta)取到最大值。
即
θ=argmaxθP(X;θ)2 公式(2)称为θ的最大似然估计
对数似然估计
由于公式(1)是许多概率连乘的形式,使得公式(2)不便于计算。
由于P(X;θ)和logP(X;θ)具有相同的趋势,argmaxθP(X;θ)和argmaxθlogP(X;θ)是等价的。
于是公式(2)转化为:
θ==argmaxθlogP(X;θ)argmaxθi=1∑mlogP(X(i);θ)3 公式(2)称为最大对数似然估计
期望
同理,argmaxθlogP(X;θ)和argmaxθm1logP(X;θ)是等价的
于是公式(3)又转化成:
θ====argmaxθi=1∑mlogP(X(i);θ)argmaxθm1logP(X;θ)argmaxθi=1∑mp^(x(i);θ)logp(x(i);θ)argmaxθEX∼p^datalogpmodel(x;θ)45 说明:
公式(4)(5)中的p^或p^data代表样本的真实概率
公式(4)(5)中的p或p^model代表模型预测的概率
交叉熵
公式(4)可以看是经验分布p^和模型分布p之间的差异,这种形式称为交叉熵。
KL离散度
两个分布差异程度可以用DL离散度表示。
DKL=E[logp1−logp2] p1为经验分布,与模型与无关。
因此最小化KL离散度就是要最小化−E[logp2],即−E[logpmodel(x)]