10.5 深度循环网络

大多数RNN中的计算可以分解成三块参数及其相关的变换：

从输入到隐藏状态，
从前一隐藏状态到下一隐藏状态，以及
从隐藏状态到输出。
根据\fig?中的RNN架构，这三个块都与单个权重矩阵相关联。
换句话说，当网络被展开时，每个块对应一个浅的变换。
能通过深度MLP内单个层来表示的变换称为浅变换。
[success] 一个层 = 仿射变换 + 一个固定的非线性表示组 Wx这样的操作就是仿射变换。激活函数就是非线性表示组。 f(Wx + b)这样的计算一次相当于一个层。 Ag补充：定义$a^{l,t}$为时刻t第l层的activation。
$a^{l,t} = g(W_a^l[a^{l,t-1}, a^{l-1,t}] + b_a^l)$

通常，这是由学成的仿射变换和一个固定非线性表示组成的变换。

在这些操作中引入深度会有利的吗？实验证据{cite?}强烈暗示理应如此。实验证据与我们需要足够的深度以执行所需映射的想法一致。读者可以参考{Schmidhuber92,ElHihi+Bengio-nips8}或{Jaeger2007}了解更早的关于深度RNN的研究。

{Graves-et-al-ICASSP2013}第一个展示了将RNN的状态分为多层的显著好处，如\fig?\emph{(左)}。我们可以认为，在图10.13(a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。 {Pascanu-et-al-ICLR2014}更进一步提出在上述三个块中各使用一个单独的MLP（可能是深度的），如图10.13(b)所示。