没有偷看或注意力的简单深seq2seq会收敛吗?

时间:2017-05-20 03:38:29

标签: deep-learning autoencoder

是否有成功应用深度seq2seq模型,其中解码器在第一步只读取编码器的输出状态(编码器内部状态的最后一步),并执行多步解码?

即。没有偷看,没有注意等。在每一步,解码器的输入只是前一步的输出和状态。

我可以看到一些seq2seq自动编码器实现,想知道它们是否经过长时间的训练后真正收敛,特别是当内部状态很小时。

1 个答案:

答案 0 :(得分:0)

仅使用最后隐藏状态而没有注意力没有足够的表示能力,尤其是当隐藏的大小很小时。在注意发明之前的一些系统是

https://arxiv.org/abs/1409.3215

https://arxiv.org/abs/1506.05869