似然
假设真实存在一组数据集X = {x1, x2 , ..., xm}
X服从概率分布p(x∣θ),参数θ未知。
那么似然为真实存在的数据X发生的概率。用带参数θ的函数来表示这个概率为:
P(X;θ)=P(x(1)∣θ)P(x(2)∣θ)⋯P(x(m)∣θ)1 最大似然估计
由公式(1)知X发生的可能性与参数θ有关。
我们希望X发生的可能性最大。
因此要找到一个合适的参数θ,使得P(X;\theta)取到最大值。
即
θ=argmaxθP(X;θ)2 公式(2)称为θ的最大似然估计
对数似然估计
由于公式(1)是许多概率连乘的形式,使得公式(2)不便于计算。
由于P(X;θ)和logP(X;θ)具有相同的趋势,argmaxθP(X;θ)和argmaxθlogP(X;θ)是等价的。
于是公式(2)转化为:
θ==argmaxθlogP(X;θ)argmaxθi=1∑mlogP(X(i);θ)3 公式(2)称为最大对数似然估计
期望
于是公式(3)又转化成:
交叉熵
KL离散度
两个分布差异程度可以用DL离散度表示。