RNN中从序列到序列学习的上下文中的“条件”是计算获得以输入序列或p(y|x)
为条件的输出序列的概率的过程。网络用于对该条件概率映射建模。
一种加速顺序训练以进行序列学习的技术称为“教师强迫”,其中相邻时间步长中神经元的隐藏状态被解耦(参见图片)。地面真相标签y (t-1)与输入序列元素x (t-1)一起用作后续时间步中神经元的输入。教师强迫消除了对时间反向传播的需要,并使用更少的计算资源来并行化训练。不幸的是,一些经验结果表明,与“普通” RNN相比,采用教师强迫的RNN对泛化错误的鲁棒性较低。
编辑:图像还包括条件概率分布,教师按顺序强迫RNN近似。