Hessian技术

令C =C(w)，假设目标是最小化函数C 根据泰勒公式得：

只保留前三项，得到 $C(w+\Delta w)$ 的近似值：

当 $\Delta w = -H^{-1} \nabla C$ 时，不等式右边达到最小值，也近似地认为此时左边也达到最小值。其中，H称为Hessian矩阵， $H_{jk} = \partial^2 C / \partial w_j \partial w_k$ 。

因此，基于Hessian技术，w的更新的策略为：

w \rightarrow w' = w-\eta H^{-1} \nabla C

优点：只需要经过非常少的迭代就使C能达到最小值点。缺点： $H^{-1} \nabla C$ 计算困难。

Last updated 6 years ago