算法过程

算法8.1 AdaBoost

输入：训练数据集T={X, y}，X为N个包含n个特征的样本，y取值为-1或1 弱学习算法输出：最终分类器G(x)

将训练数据的权值分布初始化为均匀分布 $w_{mi}$ 代表第m个弱分类器的第i个样本的权重。则：
$w_{1i} = \frac{1}{N}, i=1,2,\cdots,N$
根据权重 $w_m$ 得到第m个弱分类器：
$G_m(x): {\Bbb X} \rightarrow {-1, +1}$
计算弱分类器 $G_m(x)$ 的加权误分类率，这个误分类率也是带权重计算的。
$e_m = \sum_{i=1}^Nw_{mi}I(G_m(x_i) \neq y_i)$
计算 $a_m$ ， $a_m$ 代表第m个分类器的重要性：
$a_m = \frac{1}{2}\log \frac{1-e_m}{e_m}$
其中，log以e为底误分类率越小，这个弱分类器越有发言权。
更新第m+1个弱分类器中每个样本的权重
$w_{m+1,i} = w_{mi}\exp (-a_my_iG_m(x_i))$
然后使 $w_{m+1,i}$ 成为一个分布，即满足 $\sum_{i=1}^Nw_{m+1,i}=1$ 公式8.4我觉得不对，分母不应该是 $Z_m$ ，而应该是 $Z_{m+1}$ ，而 $Z_{m+1}$ 又依赖于 $w_{m+1,i}$ 的结果，所以要分成两步计算。 $y_iG_m(x_i)$ 代表对样本i是否分类正确。
回到第2步，生成第m+1个弱分类器。
生成m个弱分类器后，组成一个强分类器
$\begin{aligned} f(x) = \sum_{m=1}^Ma_mG_m(x) \\ G(x) = \text {sign}(f(x)) \end{aligned}$

Last updated 5 years ago

Was this helpful?