信息增益的算法
信息增益的算法
输入:训练数据集D和特征A 输出:特征A对训练数据集D的信息增益g(D,A)
定义: K:样本标签有K种分类 :样本标签为k的样本数 m:样本总数 :样本中第A个特征为的样本数 :样本中第A个特征为且其标签分类为k的样本数
计算数据集D的经验熵H(D)
计算特征A对数据集D的经验条件熵H(D|A)
即通过特征A分出的每个子集的熵与子集比例乘积的和。
计算信息增益
代码
Last updated
Was this helpful?
输入:训练数据集D和特征A 输出:特征A对训练数据集D的信息增益g(D,A)
定义: K:样本标签有K种分类 :样本标签为k的样本数 m:样本总数 :样本中第A个特征为的样本数 :样本中第A个特征为且其标签分类为k的样本数
计算数据集D的经验熵H(D)
计算特征A对数据集D的经验条件熵H(D|A)
即通过特征A分出的每个子集的熵与子集比例乘积的和。
计算信息增益
Last updated
Was this helpful?