8.7.3 Polyak 平均

Polyak平均{cite?}会平均优化算法在参数空间访问轨迹中的几个点。如果$t$次迭代梯度下降访问了点$\theta^{(1)},\cdots,\theta^{(t)}$，那么Polyak平均算法的输出是$\hat{\theta}^{(t)} = \frac{1}{t} \sum_i \theta^{(i)}$。

[success] 这是凸问题的更新公式

在某些问题中，如梯度下降应用于凸问题时，这种方法具有较强的收敛保证。当应用于神经网络时，其验证更多是启发式的，但在实践中表现良好。基本想法是，优化算法可能会来回穿过山谷好几次而没经过山谷底部附近的点。尽管两边所有位置的均值应比较接近谷底。

在非凸问题中，优化轨迹的路径可以非常复杂，并且经过了许多不同的区域。包括参数空间中遥远过去的点，可能与当前点在代价函数上相隔很大的障碍，看上去不像一个有用的行为。其结果是，当应用Polyak平均于非凸问题时，通常会使用指数衰减计算平均值：

\begin{aligned} \hat{\theta}^{(t)} = \alpha \hat{\theta}^{(t-1)} + (1-\alpha) \theta^{(t)} . \end{aligned}

[success] 这是非凸问题的更新公式

这个计算平均值的方法被用于大量数值应用中。最近的例子请查看{Szegedy-et-al-2015}。

[warning] 不懂，感觉是第5节的意思用在于更新参数上。

Previous8.7.2 坐标下降 Next8.7.4 监督预训练

Last updated 5 years ago

Was this helpful?