✏️
LiHang-TongJiXueXiFangFa
  • Introduction
  • 第2章 感知机 - 原始形式
    • 学习策略的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
    • 梯度下降法的收敛证明
  • 第2章 感知机 - 对偶形式
    • 学习模型的推导
    • 梯度下降法的算法过程
    • 梯度下降法的推导过程
  • 第3章 k近邻算法
    • 模型三要素
    • 构造平衡kd树
    • 用kd树的k近邻搜索
    • kd树的原理与改进
  • 第4章 朴素贝叶斯
    • 模型公式的推导
    • 策略公式的推导
    • 最大似然估计算法过程
    • 贝叶斯估计算法过程
  • 第5章 决策树
    • 决策树的模型
    • 信息增益的算法
    • ID3决策树的生成算法
    • C4.5决策树的生成算法
    • 决策树的剪枝算法
  • 第5章 CART决策树
    • CART树的生成
    • CART树的剪枝
  • 第6章 逻辑回归
    • 二分类逻辑回归模型
    • 多分类逻辑回归模型
  • 第6章 最大熵模型
    • 最大熵的原理
    • 最大熵模型的定义
    • 最大熵的学习过程
    • 根据最大熵的学习过程推导最大熵模型
    • 证明:对偶函数的极大化=模型的极大似然估计
  • 第6章 目标函数最优化问题
    • 改进的迭代尺度法(IIS)
    • IIS算法公式(1)推导
    • A和B的推导
    • 拟牛顿法
  • 第7章 支持向量机
    • 函数间隔与几何间隔
  • 第7章 线性可分SVM
    • 凸二次规划问题推导
    • 支持向量
    • 凸二次规划问题求解
    • 原始问题转换为对偶最优化问题
  • 第7章 线性SVM
    • 原始问题转换为对偶最优化问题
    • 根据 a 求 w 和 b*
    • 支持向量
  • 第7章 非线性SVM
    • 核函数与核技巧
    • 核技巧在SVM中的应用
    • 7.3.2 正定核
    • 常用的核函数
  • 第7章 序列最小最优化算法
    • 选择变量
    • 推导1
    • 推导2
    • 推导3
    • 推导4
    • 推导5:update b
  • 第8章 adaboost
    • 算法过程
    • 训练误差分析
    • 加法模型
    • 前向分步算法
    • adaboost一种特殊的加法模型
  • 第8章 提升树
    • 回归问题提升树的推导
    • 回归问题提升树前向分步算法
    • 一般决策问题梯度提升算法
  • 第9章 EM算法
    • 算法过程
    • Q函数的推导
    • 关于算法的收敛性
    • 高斯混合模型参数估计的EM算法
    • Q函数推导
    • 推导2
  • 第10章 隐马尔可夫模型
    • 定义
    • 概率计算问题 - 直接计算法
    • 概率计算问题 - 前向算法
    • 概率计算问题 - 后向算法
    • 学习问题 - 监督学习
    • 学习问题 - 非监督学习
    • Baum - Welch算法推导
    • 推导1
    • 预测问题 - 近似算法
    • 预测问题 - 维特比算法
    • 维特比算法推导过程
  • 第11章 条件随机场
    • 概率无向图模型
  • 遗留问题
Powered by GitBook
On this page
  • 特征的选择
  • 决策树的生成
  • 决策树的修剪

Was this helpful?

  1. 第5章 决策树

决策树的模型

Previous第5章 决策树Next信息增益的算法

Last updated 5 years ago

Was this helpful?

特征的选择

决定用哪个特征来划分特征空间。 通过信息增益选取对训练数据具有分类能力的特征。

信息增益g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即

g(D,A)=H(D)−H(D∣A)g(D, A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A)

信息熵增益准则的特征选择方法:对训练数据集(或子集)D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

决策树的生成

生成最优决策树是NP完全问题。 因此使用启发式方法,生成次最优决策树。 即递归选择最优特征。

决策树的修剪

生成的决策树容易发生过拟合,需要修剪。 决策树的生成是寻找局部最优的决策树。 决策树的修剪则是寻找全局最优的决策树。

决策树的剪枝往往通过极小化决策树整体的损失函数来实现 定义: T:修剪前的决策树 |T|:T的叶子结点树 t:T的某个叶结点 NtN_tNt​:叶结点t的样本数 NtkN_{tk}Ntk​:叶结点t的样本中标签为k的样本树 Ht(T)H_t(T)Ht​(T):叶结点t上的经验熵 a:参数,a≥0a \ge 0a≥0 损失函数:

Ca(T)=C(T)+a∣T∣1C(T)=∑∣T∣NtHt(T)2pk=NtkNt3Ht(T)=−∑Kpklog⁡pk4\begin{aligned} C_a(T) = C(T) + a|T| && {1} C(T) = \sum^{|T|}N_tH_t(T) && {2} p_k = \frac{N_{tk}}{N_t} && {3} H_t(T) = -\sum^Kp_k\log p_k && {4} \end{aligned}Ca​(T)=C(T)+a∣T∣​​1C(T)=∑∣T∣​Nt​Ht​(T)​​2pk​=Nt​Ntk​​​​3Ht​(T)=−∑K​pk​logpk​​​4​

说明: 公式(1)中的第1项为模型对训练数据预测误差,代表模型的模拟度 公式(1)代表模型的复杂度 公式(1)中的a代表平衡模型拟合度和复杂度之间的关系

损失函数极小化 = 正则化的极大似然估计

熵