考虑Transfomer模型:从编码器堆栈馈送到解码器层的内容

时间:2019-07-17 23:29:29

标签: neural-network transformer attention-model

我正在尝试正确理解变压器的体系结构。我很难弄清实际上是从编码器堆栈向解码器堆栈馈入了哪种数据。

考虑到Google的论文“ {@ 3}}(pdf)和Jay Allamar的博客文章(https://arxiv.org/pdf/1706.03762.pdf),我注意到“对所有输出都进行了关注”编码器堆栈”(纸)。现在,我想知道两件事:1.解码器堆栈是如何初始化的,是否有固定的或受过训练的解码器状态D0之类的东西,还是也由编码器堆栈的输出来初始化的。 2.我怎样看待这种“编码器状态输出”?由于这是一种编码器-解码器结构,因此我希望它是某种上下文向量。在Jay Allamar(http://jalammar.github.io/illustrated-transformer/)的另一篇博客文章中,似乎是编码器层的隐藏状态的连接或堆叠。但是,在第一个提到的博客文章以及在论文中,听起来更像是这些隐藏状态仅被馈送到后续的编码器层,而不是以任何方式存储。那么解码器实际上是在做什么呢?

0 个答案:

没有答案