已经w的偏导公式为:
已知akl−1∈[0,1]a^{l-1}_k \in [0,1]akl−1∈[0,1]必定为正,∂C∂wjkl\frac{\partial C}{\partial w^l_{jk}}∂wjkl∂C的符号由δjl\delta^l_jδjl决定。 可以看书: δjl\delta^l_jδjl的值与k无关 ⇒∀k,∂C∂wjkl\Rightarrow \forall k,\frac{\partial C}{\partial w^l_{jk}}⇒∀k,∂wjkl∂C的符号相同 ⇒\Rightarrow⇒对于一个神经元中所有的w,会同时变大或变小 这是不合理的。
tanh神经元的激活函数为:
tanh其实只是对sigmoid的变形,其图形为: tanh和sigmoid的重要区别是tanh(z)∈[−1,1]tanh(z) \in [-1,1]tanh(z)∈[−1,1],这使的同一个神经元中不同的w的偏导的符号可以不同。
理论上分析,tanh能弥补sigmoid的不足,效果应该优于sigmoid。 在实践中,并没有明显的证据表明tanh优于sigmoid。
Last updated 5 years ago