8.1 学习和纯优化有什么不同
深度学习很少使用经验风险最小化
机器学习不会等到代价函数达到极小值后再停止,而是会提前停止。
机器学习的目标函数可以分解成训练样本上的求和,仅使用一部分样本来估计整体样本的期望。
用于深度模型训练的优化算法与传统的优化算法在几个方面有所不同。 机器学习通常是间接作用的。 在大多数机器学习问题中,我们关注某些性能度量$P$,其定义于测试集上并且可能是不可解的。 因此,我们只是间接地优化$P$。 我们希望通过降低一个不同的代价函数 $J(\theta)$来提高$P$。 这一点与纯优化不同,纯优化最小化目标$J$本身。 训练深度模型的优化算法通常也会包括一些针对机器学习目标函数的特定结构进行的特化。
通常,代价函数可写为训练集上的平均,如
[success] 假设某个network定义的function space是$f(x;\theta)$,这是一个以$\theta$为参数的关于x的函数。 有一组训练数据$\hat{p}\text{data}$,其中的每个数据分别记作$(x^i,y^i)$ 再定义一个针对每个样本的损失函数$l(f(x^i;\theta),y^i)$ 得到总的代价函数为公式(8.1)。 由于公式中的x、y都来自训练数据,都是已知的,唯一的未知量是$\theta$,因此代价函数是一个关于$\theta$的函数。 要求的是$\theta^$,满足$\theta^ = \arg\min\theta L(\theta)$
其中$L$是每个样本的损失函数,$f(x;\theta)$是输入$x$时所预测的输出,$\hat{p}_{\text{data}}$是经验分布。 监督学习中,$y$是目标输出。
在本章中,我们会介绍不带正则化的监督学习,$L$的变量是$f(x;\theta)$和$y$。 不难将这种监督学习扩展成其他形式,如包括$\theta$或者$x$作为参数,或是去掉参数$y$,以发展不同形式的正则化或是无监督学习。
式(8.1)定义了训练集上的目标函数。 通常,我们更希望最小化取自\emph{数据生成分布}\,$p_{\text{data}}$的期望,而不仅仅是有限训练集上的对应目标函数:
Last updated