如何训练自我注意模型?

时间:2019-10-25 19:28:03

标签: nlp recurrent-neural-network transformer attention-model

我理解了变压器的整体结构,如下图所示,但令我感到困惑的是解码器部分的底部,该部分具有右移输出的输入。

例如,当用一对两个语言的句子训练模型时,假设输入是句子“我爱你”,而对应的法语是“ je t'aime”。模型如何训练?因此,编码器的输入是“我爱你”,对于解码器来说,有两件事,一是“ je t'aime”,应将其输入到MASK多头注意中,另一是输出(K和V)用于多头注意,那么概率输出是哪个词?另外,解码器输入的右移是什么?

enter image description here

0 个答案:

没有答案