seq2seq模型中的火车和推理解码器之间共享什么?

时间:2019-07-01 17:03:18

标签: tensorflow machine-learning recurrent-neural-network seq2seq

我目前正在研究seq2seq模型,但无法理解火车解码器和推理解码器之间共享的内容。

1 个答案:

答案 0 :(得分:0)

在seq2seq架构中,以最简单的形式,您有一个RNN单元(例如LSTM或GRU或vanilla RNN)用于编码器,另一个RNN单元用于解码器。在训练过程中,您将以这些单位更新重量矩阵。训练完成后,您将修复并保存所学习的体重矩阵。并且在推论过程中,您使用相同的编码器和解码器单元(就像在RNN单元中保存了权重矩阵)。

在训练和推理期间的不同之处主要在于解码器RNN单元。训练时,通常在每个时间步将地面真相令牌提供给解码器。而在推理过程中,您可以使用解码器一一计算出输出序列的令牌ID,然后将其反馈。