RNN换能器培训中的标签对齐

时间:2019-07-03 17:18:46

标签: machine-learning recurrent-neural-network ctc

我试图了解如何使用地面真相标签训练RNN传感器。对于CTC,我知道该模型是通过损失函数训练的,该函数对地面真相标签的所有可能比对的所有分数进行汇总。

但是在RNN-T中,预测网络必须从最后一步接收输入,才能产生类似于“教师强制”方法的输出。但是我的疑问是,地面真相标签是否应该转换为带有空白标签的所有可能的对齐方式,并通过“教师强制”方法将每个对齐方式馈入网络?

1 个答案:

答案 0 :(得分:0)

RNN-T具有转录网络(类似于声学模型),预测网络(语言模型)和联合网络(/功能,取决于实现方式),该联合网络将预测网络和转录网络的输出进行组合。

在训练过程中,您可以通过以下方式处理每个话语:

  • 通过转录网络传播所有T声帧并存储输出(转录网络隐藏状态)
  • 通过预测网络传播长度为U的地面真相标签序列,并在序列的开头传递全零向量。请注意,您此时无需担心空白状态
  • 通过联合网络传播转录和预测网络隐藏状态的所有T * U组合,无论是Graves(2012)的简单总和和指数,还是最新Google ASR出版物的前馈网络(例如:He et al。2019)。

根据Graves 2012的图1,可以将联合网络的T * U输出视为一个网格。然后,可以使用前向后向算法(第2.4节,Graves 2012)有效地实现损失函数。仅允许水平(消耗声帧)和垂直(消耗标签)过渡。从t步进到t + 1类似于CTC中的空白状态,而在进行垂直过渡(即从输出标签u到u + 1)时会输出非空白符号。请注意,您可以消耗多个时间范围而不输出非空白符号(按照CTC),但是您也可以输出多个标签而无需前进t。

要更直接地回答您的问题,请注意,只有非空白输出被传递回预测网络的输入,并且转录和预测网络正在异步运行。

参考文献:

  • 使用递归神经网络进行序列转导,Graves 2012
  • He等人在移动设备中流式传输端到端语音识别。 2019