我正在用pytorch中的原始caffe this paper实现source code。
作者讨论了在LSTM中改善注意力机制的方法,但是细节有些模糊。有关详细信息,请检查纸张的标题2.2.2。
尽管我的理解是作者采用了与this tutorial for Pytorch所定义的注意力权重相同的方法。
也就是说,注意权重是使用编码器输出作为输入的线性层,然后是用于关注的concat层计算的。并且注意对齐是通过损失层完成的,而不是对注意权重,注意向量或计算的上下文向量的任何更改。
但是,作者在可视化的model pt file的here for better interpretation中看到Decoder AttLSTM Layer
和Pred Lstm Layer
这两个LSTM块。
我的问题是在the first link provided中,作者的注意力_LSTM层是一个简单的线性层,它计算注意力权重,然后像pytorch教程示例中一样继续解码器LSTM的加权输入。还是那里还有其他事情要做。