梯度下降法的推导过程

在感知机的原始形式中,模型为:

f(x)=sign(wx+b)sign(x)={+1,x01,x<0\begin{aligned} f(x) = sign(w \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \end{aligned}

对应的梯度下降法的偏导公式为:

{wnew=wold+ηyixibnew=bold+ηyi\begin{cases} w_{new} = w_{old} + \eta y_ix_i \\ b_{new} = b_{old} + \eta y_i \end{cases}

在感知机的对偶形式中,模型演变为:

f(x)=sign(j=1majyjxjx+b)sign(x)={+1,x01,x<0\begin{aligned} f(x) = sign(\sum_{j=1}^m a_jy_jx_j \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \end{aligned}

感知机的对偶模型,实际是把原始模型中的w,b展开为:

{w=j=1majyjxjb=j=1majyj(3)\begin{cases} w = \sum_{j=1}^m a_jy_jx_j \\ b = \sum_{j=1}^m a_jy_j && (3) \end{cases}

对应的梯度下降法的偏导公式中的w则演变为:

(j=1majyjxj)new=(j=1majyjxj)old+ηyixi4\begin{aligned} (\sum_{j=1}^m a_jy_jx_j)_{new} = (\sum_{j=1}^m a_jy_jx_j)_{old} + \eta y_ix_i && {4} \end{aligned}

对以上公式进一步简化: 1. 由于使用的是随机梯度下降法,假设误分类集合M中只有一个点(xj,yj)(x_j, y_j) 2. 公式(4)左右两边都去掉yjxjy_jx_j,得到

(aj)new=(aj)old+η5\begin{aligned} (a_j)_{new} = (a_j)_{old} + \eta && {5} \end{aligned}

公式(3)中的b更新方式不变,与公式(5)结合,得:

{(aj)new=(aj)old+ηbnew=bold+ajyj(6)\begin{cases} (a_j)_{new} = (a_j)_{old} + \eta \\ b_{new} = b_{old} + a_jy_j && (6) \end{cases}

Last updated