✍️
mathematics_basic_for_ML
  • README
  • README
    • Summary
    • Geometry
      • EulerAngle
      • Gimbal lock
      • Quaternion
      • RiemannianManifolds
      • RotationMatrix
      • SphericalHarmonics
    • Information
      • Divergence
      • 信息熵 entropy
    • LinearAlgebra
      • 2D仿射变换(2D Affine Transformation)
      • 2DTransformation
      • 3D变换(3D Transformation)
      • ComplexTransformation
      • Conjugate
      • Hessian
      • IllConditioning
      • 逆变换(Inverse transform)
      • SVD
      • det
      • eigendecomposition
      • 矩阵
      • norm
      • orthogonal
      • special_matrix
      • trace
      • vector
    • Mathematics
      • Complex
      • ExponentialDecay
      • average
      • calculus
      • convex
      • derivative
      • 距离
      • function
      • space
      • Formula
        • euler
        • jensen
        • taylor
        • trigonometric
    • Numbers
      • 几何级数
      • SpecialNumbers
    • NumericalComputation
      • ConstrainedOptimization
      • GradientDescent
      • Newton
      • Nominal
      • ODE_SDE
      • Preprocessing
    • Probability
      • bayes
      • distribution
      • expectation_variance
      • 贝叶斯公式
      • functions
      • likelihood
      • mixture_distribution
      • 一些术语
      • probability_distribution
Powered by GitBook
On this page
  • 似然
  • 最大似然估计
  • 对数似然估计
  • 期望
  • 交叉熵
  • KL离散度

Was this helpful?

  1. README
  2. Probability

likelihood

似然

假设真实存在一组数据集X = {x1, x2 , ..., xm} X服从概率分布p(x∣θ)p(x|\theta)p(x∣θ),参数θ\thetaθ未知。 那么似然为真实存在的数据X发生的概率。用带参数θ\thetaθ的函数来表示这个概率为:

P(X;θ)=P(x(1)∣θ)P(x(2)∣θ)⋯P(x(m)∣θ)1\begin{aligned} P(X;\theta) = P(x^{(1)}|\theta)P(x^{(2)}|\theta)\cdots P(x^{(m)}|\theta) && {1} \end{aligned}P(X;θ)=P(x(1)∣θ)P(x(2)∣θ)⋯P(x(m)∣θ)​​1​

最大似然估计

由公式(1)知X发生的可能性与参数θ\thetaθ有关。 我们希望X发生的可能性最大。 因此要找到一个合适的参数θ\thetaθ,使得P(X;\theta)取到最大值。 即

θ=arg⁡max⁡θP(X;θ)2\begin{aligned} \theta = {\arg \max}_{\theta} P(X;\theta) &&{2} \end{aligned}θ=argmaxθ​P(X;θ)​​2​

公式(2)称为θ\thetaθ的最大似然估计

对数似然估计

由于公式(1)是许多概率连乘的形式,使得公式(2)不便于计算。 由于P(X;θ)P(X;\theta)P(X;θ)和log⁡P(X;θ)\log P(X;\theta)logP(X;θ)具有相同的趋势,arg⁡max⁡θP(X;θ){\arg \max}_{\theta} P(X;\theta)argmaxθ​P(X;θ)和arg⁡max⁡θlog⁡P(X;θ){\arg \max}_{\theta} \log P(X;\theta)argmaxθ​logP(X;θ)是等价的。 于是公式(2)转化为:

θ=arg⁡max⁡θlog⁡P(X;θ)=arg⁡max⁡θ∑i=1mlog⁡P(X(i);θ)3\begin{aligned} \theta & = & {\arg \max}_{\theta} \log P(X;\theta) \\ & = & {\arg \max}_{\theta} \sum_{i=1}^m \log P(X^{(i)};\theta) &&{3} \end{aligned}θ​==​argmaxθ​logP(X;θ)argmaxθ​i=1∑m​logP(X(i);θ)​​3​

公式(2)称为最大对数似然估计

期望

同理,arg⁡max⁡θlog⁡P(X;θ){\arg \max}_{\theta} \log P(X;\theta)argmaxθ​logP(X;θ)和arg⁡max⁡θ1mlog⁡P(X;θ){\arg \max}_{\theta} \frac{1}{m}\log P(X;\theta)argmaxθ​m1​logP(X;θ)是等价的

于是公式(3)又转化成:

θ=arg⁡max⁡θ∑i=1mlog⁡P(X(i);θ)=arg⁡max⁡θ1mlog⁡P(X;θ)=arg⁡max⁡θ∑i=1mp^(x(i);θ)log⁡p(x(i);θ)4=arg⁡max⁡θEX∼p^datalog⁡pmodel(x;θ)5\begin{aligned} \theta & = & {\arg \max}_{\theta} \sum_{i=1}^m \log P(X^{(i)};\theta) \\ & = & {\arg \max}_{\theta} \frac{1}{m}\log P(X;\theta) \\ & = & {\arg \max}_{\theta} \sum_{i=1}^m \hat p(x^{(i)};\theta) \log p(x^{(i)};\theta) && {4} \\ & = & {\arg \max}_{\theta} E_{X \sim \hat p_{data}} \log p_{model}(x;\theta) && {5} \end{aligned}θ​====​argmaxθ​i=1∑m​logP(X(i);θ)argmaxθ​m1​logP(X;θ)argmaxθ​i=1∑m​p^​(x(i);θ)logp(x(i);θ)argmaxθ​EX∼p^​data​​logpmodel​(x;θ)​​45​

说明: 公式(4)(5)中的p^\hat pp^​或p^data\hat p_{data}p^​data​代表样本的真实概率 公式(4)(5)中的ppp或p^model\hat p_{model}p^​model​代表模型预测的概率

交叉熵

公式(4)可以看是经验分布p^\hat pp^​和模型分布ppp之间的差异,这种形式称为交叉熵。

KL离散度

两个分布差异程度可以用DL离散度表示。

DKL=E[log⁡p1−log⁡p2]D_{KL} = E[\log p1 - \log p2]DKL​=E[logp1−logp2]

p1为经验分布,与模型与无关。 因此最小化KL离散度就是要最小化−E[log⁡p2]-E[\log p2]−E[logp2],即−E[log⁡pmodel(x)]-E[\log p_{model}(x)]−E[logpmodel​(x)]

PreviousfunctionsNextmixture_distribution

Last updated 2 years ago

Was this helpful?