我刚读完Transformer和BERT论文。但是无法弄清楚为什么Transformer是单向的,而BERT是双向的,正如BERT论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。谁能提供一些线索?谢谢。
答案 0 :(得分:2)
为澄清起见,来自Vaswani等人的原始Transformer模型。是一种编码器-解码器体系结构。因此,“ Transformer是单向”的说法具有误导性。
实际上,转换器 encoder 是双向的,这意味着自我关注可以同时左右两侧的令牌。相反,解码器是单向的,因为在一次生成一个令牌的文本时,您不能允许解码器参与当前令牌的右侧。转换解码器通过在右侧屏蔽令牌来限制自我注意力。
BERT使用变压器编码器架构,因此可以左右同时参加,从而产生“双向性”。
从BERT文件本身开始:
我们注意到,在文献中,双向变压器通常被称为“变压器编码器”,而仅左侧上下文的版本被称为“变压器解码器”,因为它可以用于文本生成。
推荐阅读:this article。