8.1.2 代理损失函数和提前终止

Surrogate Loss Functions 代理损失函数

[success] 代理损失函数的优点： （1）可以解决原损失函数不可导的问题（2）能估计“测试样本类别”的条件概率。（3）改进分类器的鲁棒性

有时，我们真正关心的损失函数（比如分类误差）并不能被高效地优化。例如，即使对于线性分类器而言，精确地最小化$0-1$损失通常是不可解的（复杂度是输入维数的指数级别）{cite?}。在这种情况下，我们通常会优化代理损失函数。代理损失函数作为原目标的代理，还具备一些优点。例如，正确类别的负对数似然通常用作$0-1$损失的替代。负对数似然允许模型估计给定样本的类别的条件概率，如果该模型效果好，那么它能够输出期望最小分类误差所对应的类别。

[warning] [?] 这一段看不懂条件概率P(y|x)和根据x预测y是什么区别？

在某些情况下，代理损失函数比原函数学到的更多。例如，使用对数似然替代函数时，在训练集上的$0-1$损失达到$0$之后，测试集上的$0-1$损失还能持续下降很长一段时间。这是因为即使$0-1$损失期望是零时，我们还能拉开不同类别的距离以改进分类器的鲁棒性，获得一个更强壮的、更值得信赖的分类器，从而，相对于简单地最小化训练集上的平均$0-1$损失，它能够从训练数据中抽取更多信息。

Early Stopping 提前终止

一般的优化和我们用于训练算法的优化有一个重要不同：训练算法通常不会停止在局部极小点。反之，机器学习通常最小化代理损失函数，但是在基于提前终止（第7.8节）的收敛条件满足时停止。

[success] 提前终止

通常，提前终止使用真实潜在损失函数，如验证集上的$0-1$损失，并设计为在过拟合发生之前终止。与纯优化不同的是，提前终止时代理损失函数仍然有较大的导数，而纯优化终止时过程已经收敛，导数较小。

Previous8.1.1 经验风险最小化 Next8.1.3 批量算法和小批量算法

Last updated 5 years ago

Was this helpful?