应用错误收集

变压器-您只需要关注-编码器解码器交叉关注

时间：2019-02-04 04:50:43

标签： deep-learning nlp attention-model

据我了解，每个编码器块都采用前一个编码器的输出，并且输出是序列（又名句子）的有人照看的表示形式（Z）。我的问题是，最后一个编码器块如何从Z产生K，V（用于解码器的编码器解码注意层）

我们只是从最后一个编码器层获取Wk和Wv吗？

http://jalammar.github.io/illustrated-transformer/

1 个答案:

答案 0 :(得分：0)

我认为对于解码器的所有第一个（非屏蔽）多头注意力层，$K = V = Z$。但是在计算该子层的注意力之前，$K$ 和 $V$ 被投影到不同的空间，并具有单独的训练参数矩阵 $W_i^K$ 和 $W_i^V$。