我试图了解如何使用地面真相标签训练RNN传感器。对于CTC,我知道该模型是通过损失函数训练的,该函数对地面真相标签的所有可能比对的所有分数进行汇总。
但是在RNN-T中,预测网络必须从最后一步接收输入,才能产生类似于“教师强制”方法的输出。但是我的疑问是,地面真相标签是否应该转换为带有空白标签的所有可能的对齐方式,并通过“教师强制”方法将每个对齐方式馈入网络?
答案 0 :(得分:0)
在训练过程中,您可以通过以下方式处理每个话语:
根据Graves 2012的图1,可以将联合网络的T * U输出视为一个网格。然后,可以使用前向后向算法(第2.4节,Graves 2012)有效地实现损失函数。仅允许水平(消耗声帧)和垂直(消耗标签)过渡。从t步进到t + 1类似于CTC中的空白状态,而在进行垂直过渡(即从输出标签u到u + 1)时会输出非空白符号。请注意,您可以消耗多个时间范围而不输出非空白符号(按照CTC),但是您也可以输出多个标签而无需前进t。
要更直接地回答您的问题,请注意,只有非空白输出被传递回预测网络的输入,并且转录和预测网络正在异步运行。
参考文献: