梯度消失的原因

梯度消失问题

考虑最简单的深度神经网络：

计算b1的梯度为：

由于w被初始化为均值为0方差为1的随机数，|w|有很大可能落小于1。再看 $\sigma'(z)$ 的图形： $\sigma'(z)$ 的最大值为1/4。

将b1的梯度与b3的梯度做比较，就能看出为什么梯度越来越小了。

仔细观察公式（121），如果将w设置得很大并巧妙地设置b，使得 $w_j\sigma'(z_j)$ 变大，这个问题就变成了梯度爆炸问题了。

不管梯度消失还是梯度爆炸，根本原因是梯度的连乘。

这里是每一层只有一个神经元的例子。在复杂的深度神经网络中的结果是相同的。

Last updated 5 years ago

Was this helpful?