momentum技术

Hessian的人优势在于：不仅考虑梯度，还考虑了二阶梯度。 momentum技术是将Hessian的优势应用于gradient。

引入两个概念： 1. velocity(速度)，momentum技术优化的不是位置，而是速度。 2. friction(阻力)

gradient的更新规则为：

w \rightarrow w'= w-\eta \nabla C

momentum的更新规则为：

u是一个超参数。先假设u=1的情况： $\nabla C$ 代表力，由力改变速度v，由速度改变w。优点：到达最低点的速度非常快缺点：到达最低点后会由于惯性冲出去。

再假设u=0的情况：将1-u看作是阻力，当u=0时表示阻力最大，此时算法退化为gradient算法。

可以通过调节u使得算法既保证下降速度，又不会因为惯性而冲出去。

优点：只需要很少量的代码改动就可以把gradient变为momentum。

Last updated 6 years ago