Hessian技术
令C =C(w),假设目标是最小化函数C 根据泰勒公式得:
\begin{eqnarray}
C(w+\Delta w) & = & C(w) + \sum_j \frac{\partial C}{\partial w_j} \Delta w_j
\nonumber \\ & & + \frac{1}{2} \sum_{jk} \Delta w_j \frac{\partial^2 C}{\partial w_j
\partial w_k} \Delta w_k + \ldots
\tag{103} \\
& = & C(w) + \nabla C \cdot \Delta w +
\frac{1}{2} \Delta w^T H \Delta w + \ldots,
\tag{104}\end{eqnarray}
只保留前三项,得到的近似值:
\begin{eqnarray}
C(w+\Delta w) \approx C(w) + \nabla C \cdot \Delta w +
\frac{1}{2} \Delta w^T H \Delta w.
\tag{105}\end{eqnarray}
当时,不等式右边达到最小值,也近似地认为此时左边也达到最小值。 其中,H称为Hessian矩阵,。
因此,基于Hessian技术,w的更新的策略为:
优点:只需要经过非常少的迭代就使C能达到最小值点。 缺点:计算困难。
Last updated
Was this helpful?