我目前正在学习有关Seq2seq的翻译。我试图从此网站“ https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder”理解并遵循PyTorch教程。
在网站上,他们谈论注意力技术。我想知道他们在Luong和Bahdanau之间使用了哪种技术? 另一个问题,为什么他们在GRU单元之前应用Relu层? 最后,图中的红色框称为上下文向量,对吗?
答案 0 :(得分:0)
我想知道他们在Luong和Bahdanau之间使用了哪种技术?
Loung是可乘的,因此应该使用Bahdanau(加法注意),因为它会结合然后应用线性。有关注意力类型的更多信息,请参见http://ruder.io/deep-learning-nlp-best-practices/index.html#attention
为什么他们在GRU单元之前应用RelU层?
这是Linear
层之后的激活。我认为tanh是最初使用的,但是ReLU变得更可取了。
我认为,将Decoder
嵌入后的其他ReLU是错误地存在的
https://github.com/spro/practical-pytorch/issues/4
图中的红色框称为上下文向量,对吗?
是