在当前神经网络中使用L2正则化

正则化项对计算一个样本的影响

加入L2正则化项后，计算一个样本的w、b偏导的公式变为：

仍用反向传播算法计算 $\frac{\partial C_0}{\partial w}$ 和 $\frac{\partial C_0}{\partial b}$ ，在更新w和b时把 $\frac{\lambda}{n} w$ 考虑进去。得：

也就是说，w在每次更新前都要成比例地缩小(rescale)。这个rescale的步骤被称为weights decay。

一次随机梯度计算会从n个样本中随机选出m个进行计算。基于这m个样本的反向传播算法结果一次性更新w和b的公式为：

注意：公式93的第一项中的分母是n，不是m。不管这一批随机选择了多少个样本，w的recalse的比例是一样的。

self.weights = [(1-eta*(lmbda/n))*w-(eta/len(mini_batch))*nw
                for w, nw in zip(self.weights, nabla_w)]

Last updated 5 years ago

Was this helpful?