10.2.4 基于上下文的RNN序列建模

[success] 通常将RNN的输入称为“上下文”。

上一节描述了没有输入$x$时，关于随机变量序列$y^{(t)}$的RNN如何对应于有向图模型。当然，如\eqn?所示的RNN包含一个输入序列$x^{(1)},x^{(2)},\cdots,x^{(\tau)}$。一般情况下，RNN允许将图模型的观点扩展到不仅代表$y$变量的联合分布也能表示给定$x$后$y$条件分布。如在\sec?的前馈网络情形中所讨论的，任何代表变量$P(y;\theta)$的模型都能被解释为代表条件分布$P(y \mid \omega)$的模型，其中$\omega=\theta$。我们能像之前一样使用$P(y \mid \omega)$代表分布$P(y \mid x)$来扩展这样的模型，但要令$\omega$是关于$x$的函数。

[warning] $P(y \mid \omega)$和$P(y \mid x)$是什么关系？

在RNN的情况，这可以通过不同的方式来实现。此处，我们回顾最常见和最明显的选择。

之前，我们已经讨论了将$t =1, \cdots, \tau$的向量$x^{(t)}$序列作为输入的RNN。另一种选择是只使用单个向量$x$作为输入。当$x$是一个固定大小的向量时，我们可以简单地将其看作产生$y$序列RNN的额外输入。将额外输入提供到RNN的一些常见方法是：

在每个时刻作为一个额外输入，或
作为初始状态$h^{(0)}$，或
[warning] 这种方法和“使用序列作为输入”有什么区别？
结合两种方式。

第一个也是最常用的方法如\fig?所示。输入$x$和每个隐藏单元向量$h^{(t)}$之间的相互作用是通过新引入的权重矩阵$R$参数化的，这是只包含$y$序列的模型所没有的。

[warning] R和U有什么区别？

Previous10.2.3 作为有向图模型的循环网络 Next10.3 双向RNN

Last updated 5 years ago

Was this helpful?