梯度消失的原因

梯度消失问题

考虑最简单的深度神经网络:

计算b1的梯度为:

由于w被初始化为均值为0方差为1的随机数,|w|有很大可能落小于1。 再看σ(z)\sigma'(z)的图形: σ(z)\sigma'(z)的最大值为1/4。

将b1的梯度与b3的梯度做比较,就能看出为什么梯度越来越小了。

梯度爆炸问题

仔细观察公式(121),如果将w设置得很大并巧妙地设置b,使得wjσ(zj)w_j\sigma'(z_j)变大,这个问题就变成了梯度爆炸问题了。

梯度不稳定问题

不管梯度消失还是梯度爆炸,根本原因是梯度的连乘。

这里是每一层只有一个神经元的例子。 在复杂的深度神经网络中的结果是相同的。

Last updated

Was this helpful?