梯度消失的原因
Last updated
Last updated
考虑最简单的深度神经网络:
计算b1的梯度为:
由于w被初始化为均值为0方差为1的随机数,|w|有很大可能落小于1。 再看的图形: 的最大值为1/4。
将b1的梯度与b3的梯度做比较,就能看出为什么梯度越来越小了。
仔细观察公式(121),如果将w设置得很大并巧妙地设置b,使得变大,这个问题就变成了梯度爆炸问题了。
不管梯度消失还是梯度爆炸,根本原因是梯度的连乘。
这里是每一层只有一个神经元的例子。 在复杂的深度神经网络中的结果是相同的。