标签: deep-learning autoencoder
是否有成功应用深度seq2seq模型,其中解码器在第一步只读取编码器的输出状态(编码器内部状态的最后一步),并执行多步解码?
即。没有偷看,没有注意等。在每一步,解码器的输入只是前一步的输出和状态。
我可以看到一些seq2seq自动编码器实现,想知道它们是否经过长时间的训练后真正收敛,特别是当内部状态很小时。
答案 0 :(得分:0)
仅使用最后隐藏状态而没有注意力没有足够的表示能力,尤其是当隐藏的大小很小时。在注意发明之前的一些系统是
https://arxiv.org/abs/1409.3215
https://arxiv.org/abs/1506.05869