我在pytorch教程中有一个关于SEQUENCE到SEQUENCE的问题

时间:2019-08-09 09:37:31

标签: pytorch seq2seq attention-model

我目前正在学习有关Seq2seq的翻译。我试图从此网站“ https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder”理解并遵循PyTorch教程。

在网站上,他们谈论注意力技术。我想知道他们在Luong和Bahdanau之间使用了哪种技术? 另一个问题,为什么他们在GRU单元之前应用Relu层? 最后,图中的红色框称为上下文向量,对吗?

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:0)

  

我想知道他们在Luong和Bahdanau之间使用了哪种技术?

Loung是可乘的,因此应该使用Bahdanau(加法注意),因为它会结合然后应用线性。有关注意力类型的更多信息,请参见http://ruder.io/deep-learning-nlp-best-practices/index.html#attention

  

为什么他们在GRU单元之前应用RelU层?

这是Linear层之后的激活。我认为tanh是最初使用的,但是ReLU变得更可取了。
我认为,将Decoder嵌入后的其他ReLU是错误地存在的 https://github.com/spro/practical-pytorch/issues/4

  

图中的红色框称为上下文向量,对吗?