✍️
mathematics_basic_for_ML
  • README
  • README
    • Summary
    • Geometry
      • EulerAngle
      • Gimbal lock
      • Quaternion
      • RiemannianManifolds
      • RotationMatrix
      • SphericalHarmonics
    • Information
      • Divergence
      • 信息熵 entropy
    • LinearAlgebra
      • 2D仿射变换(2D Affine Transformation)
      • 2DTransformation
      • 3D变换(3D Transformation)
      • ComplexTransformation
      • Conjugate
      • Hessian
      • IllConditioning
      • 逆变换(Inverse transform)
      • SVD
      • det
      • eigendecomposition
      • 矩阵
      • norm
      • orthogonal
      • special_matrix
      • trace
      • vector
    • Mathematics
      • Complex
      • ExponentialDecay
      • average
      • calculus
      • convex
      • derivative
      • 距离
      • function
      • space
      • Formula
        • euler
        • jensen
        • taylor
        • trigonometric
    • Numbers
      • 几何级数
      • SpecialNumbers
    • NumericalComputation
      • ConstrainedOptimization
      • GradientDescent
      • Newton
      • Nominal
      • ODE_SDE
      • Preprocessing
    • Probability
      • bayes
      • distribution
      • expectation_variance
      • 贝叶斯公式
      • functions
      • likelihood
      • mixture_distribution
      • 一些术语
      • probability_distribution
Powered by GitBook
On this page
  • 一般混合模型
  • 高斯混合模型 Gaussian misture model
  • F函数

Was this helpful?

  1. README
  2. Probability

mixture_distribution

PreviouslikelihoodNext一些术语

Last updated 2 years ago

Was this helpful?

先通过Mulitinoulli分布选择一个组件分布(component distribution)。 再从组件分布中选择一个样本。 潜变量:不能直接观测到的变量,例如Mulitinoulli分布中的变量

一般混合模型

一般混合模型是指具有如下形式的概率分布模型:

P(y∣θ)=∑k=1Kakϕ(y∣θk)P(y|\theta) = \sum_{k=1}^Ka_k\phi(y|\theta_k)P(y∣θ)=k=1∑K​ak​ϕ(y∣θk​)

其中: aka_kak​是系数,ak≥0a_k \ge 0ak​≥0,且∑k=1Kak=1\sum_{k=1}^Ka_k=1∑k=1K​ak​=1 ϕ(y∣θk)\phi(y|\theta_k)ϕ(y∣θk​)可以是概率分布密度。

组件i的先验概率(prior probability):ai=P(c=i)a_i = P(c=i)ai​=P(c=i) 组件i的后验概率(posterior probability),即观测到x之后组件i的概率:P(c=i∣x)P(c=i|x)P(c=i∣x)

高斯混合模型 Gaussian misture model

当ϕ(y∣θk)\phi(y|\theta_k)ϕ(y∣θk​)为高斯分布密度,即

ϕ(y∣θk)=12πσkexp⁡(−(y−μk)22σk2)θ=(a1,a2,⋯ ,ak,μ1,μ2,⋯ ,μk,σ1,σ2,⋯ ,σk)\begin{aligned} \phi(y|\theta_k) = \frac{1}{\sqrt {2\pi}\sigma_k}\exp(-\frac{(y-\mu_k)^2}{2\sigma_k^2}) \\ \theta = (a1, a2, \cdots, a_k, \mu_1, \mu_2, \cdots, \mu_k, \sigma_1, \sigma_2, \cdots, \sigma_k) \end{aligned}ϕ(y∣θk​)=2π​σk​1​exp(−2σk2​(y−μk​)2​)θ=(a1,a2,⋯,ak​,μ1​,μ2​,⋯,μk​,σ1​,σ2​,⋯,σk​)​

此时P(y∣θ)P(y|\theta)P(y∣θ)为高斯混合分布。 每个组件分布都高斯分布,且有自己的μ\muμ和Σ\SigmaΣ。

高斯混合模型是概率密度的万能近似器(universal approximator),在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。

特殊的高斯混合模型: 限制每个组件的协方差矩阵为对角的或者各向同性的(标量乘以单位矩阵)。 [?]各向同性

[TODO]cs229配置的数学部分有关于高斯混合模型的详细内容,还没做笔记。

F函数

假设隐变量数据Z的概率分布为P^(Z)\hat P(Z)P^(Z),定义分布P^\hat PP^与参数θ\thetaθ的函数F(P^,θ)F(\hat P, \theta)F(P^,θ)如下:

F(P^,θ)=EP^[log⁡P(Y,Z∣theta)]+H(P^)F(\hat P, \theta) = E_{\hat P}[\log P(Y, Z|theta)] + H(\hat P)F(P^,θ)=EP^​[logP(Y,Z∣theta)]+H(P^)

式中,H(P^)=−EP^[log⁡P^(Z)]H(\hat P) = -E_{\hat P}[\log \hat P(Z)]H(P^)=−EP^​[logP^(Z)]是分布P^(Z)\hat P(Z)P^(Z)的熵。