Hessian技术

令C =C(w),假设目标是最小化函数C 根据泰勒公式得:

只保留前三项,得到C(w+Δw)C(w+\Delta w)的近似值:

Δw=H1C\Delta w = -H^{-1} \nabla C时,不等式右边达到最小值,也近似地认为此时左边也达到最小值。 其中,H称为Hessian矩阵,Hjk=2C/wjwkH_{jk} = \partial^2 C / \partial w_j \partial w_k

因此,基于Hessian技术,w的更新的策略为:

ww=wηH1Cw \rightarrow w' = w-\eta H^{-1} \nabla C

优点:只需要经过非常少的迭代就使C能达到最小值点。 缺点:H1CH^{-1} \nabla C计算困难。

Last updated