应用到神经网络

用梯度下降法最小化损失函数

概率梯度下降法的更新公式得：

根据以上公式可知，要更新一次w,b，就要对所有样本分别进行一次计算。当样本数量非常大时，每一更新都非常耗时。

解决方法：随机梯度下降法 stochastci gradient descent

随机取m个样本来更新w和b，认为m个样本计算出来的梯度近似C的梯度。

因此，更新公式变成了：

事实上，公式中的 $\frac{1}{n}$ 或 $\frac{1}{m}$ 也不重要，常常被省略。只是相当于调整了 $\eta$ 而已。

随机梯度下降法不如批量梯度下降法那样“直奔目的”。它会为随机选取的样本不同而波动。但随机梯度下降法带来的优化的效率是非常可观的。事实上，我们不需要非常完美的算法，只要算法的进化方向是正确的就可以了。所以随机梯度下降法更常用。

更进一步，当m=1时，每次只是随机选择一个样本进行调参，就变成了一个在线学习算法。

人不能看见三维以上维度的空间。所以需要借助一些方法来思考三维以上维度的问题。其中一种方法是algebraic(代数)。还有其它一些方法，见链接

Last updated 5 years ago

Was this helpful?