我正在阅读著名的论文'Attention is all you need'。虽然我对大多数主要概念都很清楚,但有几点还是有问题
感谢任何帮助
答案 0 :(得分:0)
编码器传递计算的“注意力”矩阵。这个注意力矩阵被认为是解码器多头注意力模块的“关键”和“价值”矩阵
为什么我们需要移位输出进行测试?这不是必需的,因为在测试时,我们需要从令牌 1 中进行预测,其中“BOS”(序列开始)令牌被视为过去的令牌并因此自动左移
是的,我们需要一次又一次地迭代预测一个令牌。如果预测令牌是“EOS”(序列结束),我们停止
这不清楚,但看起来解码器的多头注意力没有训练