梯度消失的原因

梯度消失问题

计算b1的梯度为:

梯度爆炸问题

仔细观察公式(121),如果将w设置得很大并巧妙地设置b,使得wjσ(zj)w_j\sigma'(z_j)变大,这个问题就变成了梯度爆炸问题了。

梯度不稳定问题

不管梯度消失还是梯度爆炸,根本原因是梯度的连乘。

这里是每一层只有一个神经元的例子。 在复杂的深度神经网络中的结果是相同的。

Last updated