deep-learning - 没有偷看或注意力的简单深seq2seq会收敛吗？ - Thinbug

没有偷看或注意力的简单深seq2seq会收敛吗？

时间：2017-05-20 03:38:29

标签： deep-learning autoencoder

是否有成功应用深度seq2seq模型，其中解码器在第一步只读取编码器的输出状态（编码器内部状态的最后一步），并执行多步解码？

即。没有偷看，没有注意等。在每一步，解码器的输入只是前一步的输出和状态。

我可以看到一些seq2seq自动编码器实现，想知道它们是否经过长时间的训练后真正收敛，特别是当内部状态很小时。

1 个答案:

答案 0 :(得分：0)

仅使用最后隐藏状态而没有注意力没有足够的表示能力，尤其是当隐藏的大小很小时。在注意发明之前的一些系统是

https://arxiv.org/abs/1409.3215

https://arxiv.org/abs/1506.05869