单向变压器VS双向BERT

时间:2019-03-12 04:23:34

标签: nlp transformer pre-trained-model

我刚读完TransformerBERT论文。但是无法弄清楚为什么Transformer是单向的,而BERT是双向的,正如BERT论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。谁能提供一些线索?谢谢。

1 个答案:

答案 0 :(得分:2)

为澄清起见,来自Vaswani等人的原始Transformer模型。是一种编码器-解码器体系结构。因此,“ Transformer是单向”的说法具有误导性。

实际上,转换器 encoder 是双向的,这意味着自我关注可以同时左右两侧的令牌。相反,解码器是单向的,因为在一次生成一个令牌的文本时,您不能允许解码器参与当前令牌的右侧。转换解码器通过在右侧屏蔽令牌来限制自我注意力。

BERT使用变压器编码器架构,因此可以左右同时参加,从而产生“双向性”。

从BERT文件本身开始:

  

我们注意到,在文献中,双向变压器通常被称为“变压器编码器”,而仅左侧上下文的版本被称为“变压器解码器”,因为它可以用于文本生成。

推荐阅读:this article