✏️
LiHang-TongJiXueXiFangFa
  • Introduction
  • 第2章 感知机 - 原始形式
    • 学习策略的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
    • 梯度下降法的收敛证明
  • 第2章 感知机 - 对偶形式
    • 学习模型的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
  • 第3章 k近邻算法
    • 模型三要素
    • 构造平衡kd树
    • 用kd树的k近邻搜索
    • kd树的原理与改进
  • 第4章 朴素贝叶斯
    • 模型公式的推导
    • 策略公式的推导
    • 最大似然估计算法过程
    • 贝叶斯估计算法过程
  • 第5章 决策树
    • 决策树的模型
    • 信息增益的算法
    • ID3决策树的生成算法
    • C4.5决策树的生成算法
    • 决策树的剪枝算法
  • 第5章 CART决策树
    • CART树的生成
    • CART树的剪枝
  • 第6章 逻辑回归
    • 二分类逻辑回归模型
    • 多分类逻辑回归模型
  • 第6章 最大熵模型
    • 最大熵的原理
    • 最大熵模型的定义
    • 最大熵的学习过程
    • 根据最大熵的学习过程推导最大熵模型
    • 证明:对偶函数的极大化=模型的极大似然估计
  • 第6章 目标函数最优化问题
    • 改进的迭代尺度法(IIS)
    • IIS算法公式(1)推导
    • A和B的推导
    • 拟牛顿法
  • 第7章 支持向量机
    • 函数间隔与几何间隔
  • 第7章 线性可分SVM
    • 凸二次规划问题推导
    • 支持向量
    • 凸二次规划问题求解
    • 原始问题转换为对偶最优化问题
  • 第7章 线性SVM
    • 原始问题转换为对偶最优化问题
    • 根据 a 求 w 和 b*
    • 支持向量
  • 第7章 非线性SVM
    • 核函数与核技巧
    • 核技巧在SVM中的应用
    • 7.3.2 正定核
    • 常用的核函数
  • 第7章 序列最小最优化算法
    • 选择变量
    • 推导1
    • 推导2
    • 推导3
    • 推导4
    • 推导5:update b
  • 第8章 adaboost
    • 算法过程
    • 训练误差分析
    • 加法模型
    • 前向分步算法
    • adaboost一种特殊的加法模型
  • 第8章 提升树
    • 回归问题提升树的推导
    • 回归问题提升树前向分步算法
    • 一般决策问题梯度提升算法
  • 第9章 EM算法
    • 算法过程
    • Q函数的推导
    • 关于算法的收敛性
    • 高斯混合模型参数估计的EM算法
    • Q函数推导
    • 推导2
  • 第10章 隐马尔可夫模型
    • 定义
    • 概率计算问题 - 直接计算法
    • 概率计算问题 - 前向算法
    • 概率计算问题 - 后向算法
    • 学习问题 - 监督学习
    • 学习问题 - 非监督学习
    • Baum - Welch算法推导
    • 推导1
    • 预测问题 - 近似算法
    • 预测问题 - 维特比算法
    • 维特比算法推导过程
  • 第11章 条件随机场
    • 概率无向图模型
  • 遗留问题
Powered by GitBook
On this page

Was this helpful?

  1. 第4章 朴素贝叶斯

模型公式的推导

假设A和B是两个事件,根据贝叶斯公式:

P(A∣B)∗P(B)=P(A,B)=P(B∣A)P(A)P(A|B) * P(B) = P(A, B) = P(B|A)P(A)P(A∣B)∗P(B)=P(A,B)=P(B∣A)P(A)

又假如在这两个事件中,我们关注的是事件A,那么称: P(A)为先验概率,即A发生的概率 P(B|A)为条件概率 P(A|B)为后验概率 根据先验概率和条件概率求后验概率:

P(A∣B)=P(B∣A)P(A)P(B)P(A|B) = \frac {P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A)​

在朴素贝叶斯模型中,将Y=CkY=C_kY=Ck​看作是事件A,将X=xX=xX=x看作事件B,根据给定的输入x求Y得到不同值的概率:

P(Y=Ck∣X=x)=P(X=x∣Y=Ck)P(Y=Ck)P(X=x)1\begin{aligned} P(Y=C_k|X=x) = \frac{P(X=x|Y=C_k)P(Y=C_k)}{P(X=x)} && {1} \end{aligned}P(Y=Ck​∣X=x)=P(X=x)P(X=x∣Y=Ck​)P(Y=Ck​)​​​1​

公式(1)中P(Y=Ck)P(Y=C_k)P(Y=Ck​)是先验概率,可以直接根据样本计算出来。 公式(1)中的P(X=x∣Y=Ck)P(X=x|Y=C_k)P(X=x∣Y=Ck​)不能由样本直接计算。 将x展开为

x=(x(1),x(2),⋯ ,x(n))2\begin{aligned} x=(x^{(1)},x^{(2)},\cdots,x^{(n)}) && {2} \end{aligned}x=(x(1),x(2),⋯,x(n))​​2​

根据朴素贝叶斯模型中对数据的假设:用于分类的特征在类确定的条件下都是条件独立的。公式(2)中的x(1),x(2),⋯ ,x(n)x^{(1)},x^{(2)},\cdots,x^{(n)}x(1),x(2),⋯,x(n)就是这些条件独立的特征,得到:

P(X=x∣Y=Ck)=P(X=(x(1),x(2),⋯ ,x(n))∣Y=Ck)=P(x(1)∣y=Ck)∗P(x(2)∣y=Ck)∗⋯∗P(x(n)∣y=Ck)3\begin{aligned} P(X=x|Y=C_k) \\ = P(X=(x^{(1)},x^{(2)},\cdots,x^{(n)})|Y=C_k) \\ = P(x^{(1)}|y=C_k)*P(x^{(2)}|y=C_k)*\cdots*P(x^{(n)}|y=C_k) && {3} \end{aligned}P(X=x∣Y=Ck​)=P(X=(x(1),x(2),⋯,x(n))∣Y=Ck​)=P(x(1)∣y=Ck​)∗P(x(2)∣y=Ck​)∗⋯∗P(x(n)∣y=Ck​)​​3​

公式(3)中的每个P(x|y)都能根据样本计算出来,最终计算出总的P(X=x∣Y=Ck)P(X=x|Y=C_k)P(X=x∣Y=Ck​) 公式(1)中的P(X=x)可根据概率论公式得出:

P(X=x)=∑kP(Y=Ck)∏jP(X(j)=x(j)∣y=Ck)4\begin{aligned} P(X=x) = \sum_k P(Y=C_k)\prod_jP(X^{(j)}=x^{(j)}|y=C_k) && {4} \end{aligned}P(X=x)=k∑​P(Y=Ck​)j∏​P(X(j)=x(j)∣y=Ck​)​​4​

把公式(3)、(4)代入公式(1)得:

P(Y=Ck∣X=x)=P(Y=Ck)∏jP(X(j)=x(j)∣y=Ck)∑kP(Y=Ck)∏jP(X(j)=x(j)∣y=Ck),k=1,2,⋯ ,KP(Y=C_k|X=x) = \frac {P(Y=C_k)\prod_jP(X^{(j)}=x^{(j)}|y=C_k)}{\sum_k P(Y=C_k)\prod_jP(X^{(j)}=x^{(j)}|y=C_k)}, k=1,2,\cdots,KP(Y=Ck​∣X=x)=∑k​P(Y=Ck​)∏j​P(X(j)=x(j)∣y=Ck​)P(Y=Ck​)∏j​P(X(j)=x(j)∣y=Ck​)​,k=1,2,⋯,K
Previous第4章 朴素贝叶斯Next策略公式的推导

Last updated 5 years ago

Was this helpful?