我试图通过Graves等人从NTM paper了解复制任务。
我有使用LSTM进行语言建模的经验,网络通常会输入一系列单词,一次一个单词,每个时间步的输出是预测的下一个单词。
然而,对于NTM的复制任务,输出似乎被延迟(这是我猜的整点):
资料来源:https://blog.wtf.sg/2014/11/11/neural-turing-machines-copy-task/
在培训期间,这究竟如何在代码中起作用?前半部分的真实输出向量和序列后半部分的输入向量是否为零向量,预计网络将为第一半输出零向量,然后在下半年输出正确的序列?
那部分让我感到困惑。