如果一个神经元的某个weight“学得慢”,可能是因为: 1. 它的参数(上一层的输入)是low-activation的。
2. 它的输出是饱和的(接近0或1)
参数是low-activation的
根据公式四:
\begin{eqnarray} \frac{\partial
C}{\partial w} = a_{\rm in} \delta_{\rm out},
\tag{32}\end{eqnarray}
可知:
当ain≈0时,∂C/∂w≈0 ain≈0即参数来自low-activation的神经元
∂C/∂w≈0即对应的w会"学得慢"。
输出的饱和的
回顾一下σ()的曲线:
a=σ(z)且a接近0或1⇒∣z∣非常大⇒σ′(z)≈0⇒b和w的偏导≈0⇒学得慢