Last updated 4 years ago
如果一个神经元的某个weight“学得慢”,可能是因为: 1. 它的参数(上一层的输入)是low-activation的。 2. 它的输出是饱和的(接近0或1)
根据公式四:
可知: 当ain≈0a_{\rm in} \approx 0ain≈0时,∂C/∂w≈0\partial C / \partial w \approx 0∂C/∂w≈0 ain≈0a_{\rm in} \approx 0ain≈0即参数来自low-activation的神经元 ∂C/∂w≈0\partial C / \partial w \approx 0∂C/∂w≈0即对应的w会"学得慢"。
回顾一下σ()\sigma()σ()的曲线: