梯度下降法的推导过程

在感知机的原始形式中，模型为：

\begin{aligned} f(x) = sign(w \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \end{aligned}

对应的梯度下降法的偏导公式为：

\begin{cases} w_{new} = w_{old} + \eta y_ix_i \\ b_{new} = b_{old} + \eta y_i \end{cases}

在感知机的对偶形式中，模型演变为：

\begin{aligned} f(x) = sign(\sum_{j=1}^m a_jy_jx_j \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \end{aligned}

感知机的对偶模型，实际是把原始模型中的w,b展开为：

\begin{cases} w = \sum_{j=1}^m a_jy_jx_j \\ b = \sum_{j=1}^m a_jy_j && (3) \end{cases}

对应的梯度下降法的偏导公式中的w则演变为：

\begin{aligned} (\sum_{j=1}^m a_jy_jx_j)_{new} = (\sum_{j=1}^m a_jy_jx_j)_{old} + \eta y_ix_i && {4} \end{aligned}

对以上公式进一步简化： 1. 由于使用的是随机梯度下降法，假设误分类集合M中只有一个点 $(x_j, y_j)$ 2. 公式（4）左右两边都去掉 $y_jx_j$ ，得到

\begin{aligned} (a_j)_{new} = (a_j)_{old} + \eta && {5} \end{aligned}

公式（3）中的b更新方式不变，与公式（5）结合，得：

\begin{cases} (a_j)_{new} = (a_j)_{old} + \eta \\ b_{new} = b_{old} + a_jy_j && (6) \end{cases}

Last updated 5 years ago

Was this helpful?