我正在开发用于文本生成的序列到序列模型(paper)。我没有使用'老师强迫"在解码器侧,即 t0 的解码器输出在 t1 时被馈送到解码器的输入端。
现在,实际上,解码器(LSTM / GRU)的输出通过Dense层,该Dense层生成该字的索引,该索引被认为是解码器的输出。
但是,为了将输出馈送到下一层,我们应该将 h_t (即解码器的输出/解码器的隐藏状态)提供给下一步,还是将下一个字的字嵌入是正确的选择吗?
答案 0 :(得分:1)
简短的回答是:可能两者都有,但隐藏状态 h_t 是必不可少的。
需要提供隐藏状态 h_t ,才能将整个句子(不仅仅是前一个词)的信息从一个解码器层传递到下一个解码器层。
提供所选单词的嵌入并非必不可少,但这可能是一个好主意。这允许解码器根据它被迫做出的先前选择进行调整。