✏️
LiHang-TongJiXueXiFangFa
  • Introduction
  • 第2章 感知机 - 原始形式
    • 学习策略的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
    • 梯度下降法的收敛证明
  • 第2章 感知机 - 对偶形式
    • 学习模型的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
  • 第3章 k近邻算法
    • 模型三要素
    • 构造平衡kd树
    • 用kd树的k近邻搜索
    • kd树的原理与改进
  • 第4章 朴素贝叶斯
    • 模型公式的推导
    • 策略公式的推导
    • 最大似然估计算法过程
    • 贝叶斯估计算法过程
  • 第5章 决策树
    • 决策树的模型
    • 信息增益的算法
    • ID3决策树的生成算法
    • C4.5决策树的生成算法
    • 决策树的剪枝算法
  • 第5章 CART决策树
    • CART树的生成
    • CART树的剪枝
  • 第6章 逻辑回归
    • 二分类逻辑回归模型
    • 多分类逻辑回归模型
  • 第6章 最大熵模型
    • 最大熵的原理
    • 最大熵模型的定义
    • 最大熵的学习过程
    • 根据最大熵的学习过程推导最大熵模型
    • 证明:对偶函数的极大化=模型的极大似然估计
  • 第6章 目标函数最优化问题
    • 改进的迭代尺度法(IIS)
    • IIS算法公式(1)推导
    • A和B的推导
    • 拟牛顿法
  • 第7章 支持向量机
    • 函数间隔与几何间隔
  • 第7章 线性可分SVM
    • 凸二次规划问题推导
    • 支持向量
    • 凸二次规划问题求解
    • 原始问题转换为对偶最优化问题
  • 第7章 线性SVM
    • 原始问题转换为对偶最优化问题
    • 根据 a 求 w 和 b*
    • 支持向量
  • 第7章 非线性SVM
    • 核函数与核技巧
    • 核技巧在SVM中的应用
    • 7.3.2 正定核
    • 常用的核函数
  • 第7章 序列最小最优化算法
    • 选择变量
    • 推导1
    • 推导2
    • 推导3
    • 推导4
    • 推导5:update b
  • 第8章 adaboost
    • 算法过程
    • 训练误差分析
    • 加法模型
    • 前向分步算法
    • adaboost一种特殊的加法模型
  • 第8章 提升树
    • 回归问题提升树的推导
    • 回归问题提升树前向分步算法
    • 一般决策问题梯度提升算法
  • 第9章 EM算法
    • 算法过程
    • Q函数的推导
    • 关于算法的收敛性
    • 高斯混合模型参数估计的EM算法
    • Q函数推导
    • 推导2
  • 第10章 隐马尔可夫模型
    • 定义
    • 概率计算问题 - 直接计算法
    • 概率计算问题 - 前向算法
    • 概率计算问题 - 后向算法
    • 学习问题 - 监督学习
    • 学习问题 - 非监督学习
    • Baum - Welch算法推导
    • 推导1
    • 预测问题 - 近似算法
    • 预测问题 - 维特比算法
    • 维特比算法推导过程
  • 第11章 条件随机场
    • 概率无向图模型
  • 遗留问题
Powered by GitBook
On this page
  • Q函数的定义
  • 为什么要引入Q函数
  • 转化对数似然函数
  • 去掉常数项

Was this helpful?

  1. 第9章 EM算法

Q函数的推导

Q函数的定义

完全数据的对数似然函数log⁡P(Y,Z∣θ)\log P(Y,Z|\theta)logP(Y,Z∣θ)关于在给定观测数据Y和当前参数θ(i)\theta(i)θ(i)下对未观测数据Z的条件概率分布P(Z∣Y,θ(i))P(Z|Y,\theta(i))P(Z∣Y,θ(i))的期望称为Q函数

Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta, \theta^{(i)}) = E_Z[\log P(Y, Z|\theta)|Y, \theta^{(i)}]Q(θ,θ(i))=EZ​[logP(Y,Z∣θ)∣Y,θ(i)]

公式说明: EZ[A]E_Z[A]EZ​[A]:A关于Z的期望 E[A|B]:在已知B的条件下A的期望,在这里已知的是“观测数据Y”和“当前参数θ(i)\theta(i)θ(i)”。 $\log P(Y,Z|\theta)$:对数似然函数

为什么要引入Q函数

EM算法的目标是要极大化对数似然函数:

L(θ)=log⁡(∑ZP(Y∣Z,θ)P(Z∣θ))L(\theta) = \log(\sum_Z P(Y|Z, \theta)P(Z|\theta))L(θ)=log(Z∑​P(Y∣Z,θ)P(Z∣θ))

但是对形如log⁡∑\log\sumlog∑这样的函数很难求极大化,最好转成对应的形如∑log⁡\sum\log∑log的函数

转化对数似然函数

这里过程跟书上不太一样,能跟书上得出一样的结果,不知道对不对

L(θ)=log⁡(∑ZP(Y∣Z,θ)P(Z∣θ))=log⁡(∑ZP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))),#A=B∗AB≥∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i)),#jensen不等式1\begin{aligned} L(\theta) = \log(\sum_Z P(Y|Z, \theta)P(Z|\theta)) \\ = \log(\sum_Z P(Z|Y,\theta_{(i)})\frac{P(Y|Z, \theta)P(Z|\theta)}{P(Z|Y,\theta_{(i)})}), \# A = B*\frac{A}{B} \\ \ge \sum_ZP(Z|Y,\theta_{(i)})\log\frac{P(Y|Z, \theta)P(Z|\theta)}{P(Z|Y,\theta_{(i)})}, \# \text{jensen不等式} && {1} \end{aligned}L(θ)=log(Z∑​P(Y∣Z,θ)P(Z∣θ))=log(Z∑​P(Z∣Y,θ(i)​)P(Z∣Y,θ(i)​)P(Y∣Z,θ)P(Z∣θ)​),#A=B∗BA​≥Z∑​P(Z∣Y,θ(i)​)logP(Z∣Y,θ(i)​)P(Y∣Z,θ)P(Z∣θ)​,#jensen不等式​​1​

去掉常数项

现在已经转化了∑log⁡\sum\log∑log形式的函数,得:

θ(i+1)=arg⁡max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i)))\theta^{(i+1)} = \arg\max_{\theta}(\sum_ZP(Z|Y,\theta_{(i)})\log\frac{P(Y|Z, \theta)P(Z|\theta)}{P(Z|Y,\theta_{(i)})})θ(i+1)=argθmax​(Z∑​P(Z∣Y,θ(i)​)logP(Z∣Y,θ(i)​)P(Y∣Z,θ)P(Z∣θ)​)

要求θ(i+1)\theta^{(i+1)}θ(i+1)就需要让公式(1)对θ\thetaθ求导。 公式(1)中与θ\thetaθ无关的项不影响结果可以去掉

θ(i+1)=arg⁡max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)−∑ZP(Z∣Y,θ(i))log⁡P(Z∣Y,θ(i))=arg⁡max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ))=arg⁡max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y,Z∣θ))=arg⁡max⁡θQ(θ,θ(i))\begin{aligned} \theta^{(i+1)} = \arg\max_{\theta}(\sum_ZP(Z|Y,\theta_{(i)})\log P(Y|Z, \theta)P(Z|\theta) - \sum_Z P(Z|Y,\theta^{(i)})\log P(Z|Y,\theta_{(i)}) \\ = \arg\max_{\theta}(\sum_ZP(Z|Y,\theta^{(i)})\log P(Y|Z, \theta)P(Z|\theta)) \\ = \arg\max_{\theta}(\sum_ZP(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)) \\ = \arg\max_{\theta} Q(\theta, \theta^{(i)}) \end{aligned}θ(i+1)=argθmax​(Z∑​P(Z∣Y,θ(i)​)logP(Y∣Z,θ)P(Z∣θ)−Z∑​P(Z∣Y,θ(i))logP(Z∣Y,θ(i)​)=argθmax​(Z∑​P(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ))=argθmax​(Z∑​P(Z∣Y,θ(i))logP(Y,Z∣θ))=argθmax​Q(θ,θ(i))​
Previous算法过程Next关于算法的收敛性

Last updated 5 years ago

Was this helpful?

说明: 在公式(1)中,f(x)=log⁡(x)f(x) = \log(x)f(x)=log(x),这是一个凹函数,所以满足不等式(2) λi=P(Z∣Y,θ(i))\lambda_i = P(Z|Y, \theta^{(i)})λi​=P(Z∣Y,θ(i)),λi\lambda_iλi​是条件概率,因此满足$\lambdai \gt 0$且$\sum_i\lambda_i=1$。 $$x_i = \frac{P(Y|Z, \theta)P(Z|\theta)}{P(Z|Y,\theta{(i)})}$$,等式左边的i为等式右边的Z

jensen不等式