标签: nlp recurrent-neural-network transformer attention-model
我理解了变压器的整体结构,如下图所示,但令我感到困惑的是解码器部分的底部,该部分具有右移输出的输入。
例如,当用一对两个语言的句子训练模型时,假设输入是句子“我爱你”,而对应的法语是“ je t'aime”。模型如何训练?因此,编码器的输入是“我爱你”,对于解码器来说,有两件事,一是“ je t'aime”,应将其输入到MASK多头注意中,另一是输出(K和V)用于多头注意,那么概率输出是哪个词?另外,解码器输入的右移是什么?