令C =C(w),假设目标是最小化函数C
根据泰勒公式得:
\begin{eqnarray}
C(w+\Delta w) & = & C(w) + \sum_j \frac{\partial C}{\partial w_j} \Delta w_j
\nonumber \\ & & + \frac{1}{2} \sum_{jk} \Delta w_j \frac{\partial^2 C}{\partial w_j
\partial w_k} \Delta w_k + \ldots
\tag{103} \\
& = & C(w) + \nabla C \cdot \Delta w +
\frac{1}{2} \Delta w^T H \Delta w + \ldots,
\tag{104}\end{eqnarray}
只保留前三项,得到C(w+Δw)的近似值:
\begin{eqnarray}
C(w+\Delta w) \approx C(w) + \nabla C \cdot \Delta w +
\frac{1}{2} \Delta w^T H \Delta w.
\tag{105}\end{eqnarray}
当Δw=−H−1∇C时,不等式右边达到最小值,也近似地认为此时左边也达到最小值。
其中,H称为Hessian矩阵,Hjk=∂2C/∂wj∂wk。
因此,基于Hessian技术,w的更新的策略为:
w→w′=w−ηH−1∇C 优点:只需要经过非常少的迭代就使C能达到最小值点。
缺点:H−1∇C计算困难。