momentum技术
Last updated
Last updated
Hessian的人优势在于:不仅考虑梯度,还考虑了二阶梯度。 momentum技术是将Hessian的优势应用于gradient。
引入两个概念: 1. velocity(速度),momentum技术优化的不是位置,而是速度。 2. friction(阻力)
gradient的更新规则为:
momentum的更新规则为:
u是一个超参数。 先假设u=1的情况: 代表力,由力改变速度v,由速度改变w。 优点:到达最低点的速度非常快 缺点:到达最低点后会由于惯性冲出去。
再假设u=0的情况: 将1-u看作是阻力,当u=0时表示阻力最大, 此时算法退化为gradient算法。
可以通过调节u使得算法既保证下降速度,又不会因为惯性而冲出去。
优点:只需要很少量的代码改动就可以把gradient变为momentum。