序列到序列模型训练

时间:2019-10-20 06:13:30

标签: tensorflow nlp pytorch sequence-to-sequence

我有几个问题:

  1. 在输入长度不同的seq到seq模型中,如果不使用注意掩码,RNN可能最终会计算出填充元素的隐藏状态值?因此,这意味着必须使用注意蒙版,否则我的输出将是错误的?
  2. 然后如何处理不同长度的标签,比方说,我已经批量填充了它。现在我不希望填充元素对我的损失造成影响,那么我该如何忽略呢?

1 个答案:

答案 0 :(得分:0)

  1. 不,不一定。 RNN采用时间序列并每次都计算“隐藏”状态。您可以强制RNN停止,而不要计算填充元素的隐藏状态值。

您可以使用动态RNN 。在这里阅读:What is a dynamic RNN in TensorFlow?