编码器如何将注意力矩阵传递给 Transformers 中的解码器“注意力就是你所需要的”?

时间:2021-03-21 11:43:29

标签: machine-learning nlp artificial-intelligence huggingface-transformers attention-model

我正在阅读著名的论文'Attention is all you need'。虽然我对大多数主要概念都很清楚,但有几点还是有问题 enter image description here

  1. Encoder 如何将使用输入计算的注意力矩阵传递给 Decoder?就像我理解的那样,它只将键值矩阵传递给解码器
  2. 测试时我们从哪里获得解码器的移位输出?
  3. 由于它一次只能输出一个令牌,因此该转换器是否运行多次迭代以生成输出序列。如果是,那么,如何知道何时停止?
  4. 权重是否在解码器的多头注意力中训练,因为它已经从编码器和掩码多头注意力中获得了 Q、K 和 V

感谢任何帮助

1 个答案:

答案 0 :(得分:0)

  1. 编码器传递计算的“注意力”矩阵。这个注意力矩阵被认为是解码器多头注意力模块的“关键”和“价值”矩阵

  2. 为什么我们需要移位输出进行测试?这不是必需的,因为在测试时,我们需要从令牌 1 中进行预测,其中“BOS”(序列开始)令牌被视为过去的令牌并因此自动左移

  3. 是的,我们需要一次又一次地迭代预测一个令牌。如果预测令牌是“EOS”(序列结束),我们停止

  4. 这不清楚,但看起来解码器的多头注意力没有训练

相关问题