热身:一种矩阵方法快速计算神经网络的输出

神经元视角

定义

wjklw_{jk}^l:l-1层第k个神经与l层第j个神经元的连接的权重。 对于这个符号,我更喜欢这么解释:l-1层第k个神经元对l层第j个神经元的重要性。 bjlb_j^l:l层第j个神经元的偏移 ajla_j^l:l层第j个神经元的输出

公式

\begin{eqnarray} a^{l}_j = \sigma\left( \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j \right), \tag{23}\end{eqnarray}

矩阵视角

把公式23以矩阵的形式表达出来。

定义

矩阵wlw^l:第l层所有神经元的权重。wjklw_{jk}^lwlw^l的j行k列。 向量blb^l:第l层所有神经元的偏移。 向量ala^l:同上。 向量函数σ(v)\sigma(v):对向量v中的每一个元素做σ\sigma然后把结果再合并成一个向量。即:σ(v)j=σ(vj)\sigma(v)_j = \sigma(v_j)

公式

\begin{eqnarray} a^{l} = \sigma(w^l a^{l-1}+b^l). \tag{25}\end{eqnarray}

用矩阵方式写公式的好处: 1. 更简洁。 2. 更少的上/下标。 3. 向量运算更快。

引申

令:

zlwlal1+blz^l \equiv w^l a^{l-1}+b^l

称zl为l层神经元的加权输入。 在后面的章节中,zl将有特殊的用处。

Last updated