momentum技术

Hessian的人优势在于:不仅考虑梯度,还考虑了二阶梯度。 momentum技术是将Hessian的优势应用于gradient。

引入两个概念: 1. velocity(速度),momentum技术优化的不是位置,而是速度。 2. friction(阻力)

gradient的更新规则为:

ww=wηCw \rightarrow w'= w-\eta \nabla C

momentum的更新规则为:

u是一个超参数。 先假设u=1的情况: C\nabla C代表力,由力改变速度v,由速度改变w。 优点:到达最低点的速度非常快 缺点:到达最低点后会由于惯性冲出去。

再假设u=0的情况: 将1-u看作是阻力,当u=0时表示阻力最大, 此时算法退化为gradient算法。

可以通过调节u使得算法既保证下降速度,又不会因为惯性而冲出去。

优点:只需要很少量的代码改动就可以把gradient变为momentum。

Last updated