应用错误收集

我理解了变压器的整体结构，如下图所示，但令我感到困惑的是解码器部分的底部，该部分具有右移输出的输入。

例如，当用一对两个语言的句子训练模型时，假设输入是句子“我爱你”，而对应的法语是“ je t'aime”。模型如何训练？因此，编码器的输入是“我爱你”，对于解码器来说，有两件事，一是“ je t'aime”，应将其输入到MASK多头注意中，另一是输出（K和V）用于多头注意，那么概率输出是哪个词？另外，解码器输入的右移是什么？

如何训练自我注意模型？

0 个答案: