BERT中的遮罩

时间:2019-09-10 16:09:53

标签: tensorflow masking bert-language-model

在BERT的原始论文中说:

  

请注意掩蔽策略的目的   是为了减少预训练之间的不匹配   和微调,因为[MASK]符号在微调阶段从不会出现。

让我们考虑一个句子“我是利物浦球迷”,该句子具有40%的蒙版将转换为“我[面具]一个[面具]球迷”。在预测第一个[MASK]时,会否用完整的句子来表示短语“我[MASK]一个风扇”,而不包括第二个[MASK]或“我[MASK]一个[MASK]风扇”? >

用自己替换10%的屏蔽令牌的目的是什么?这是否意味着它们将不会被预测?还是我们可以根据自己的情况来预测它们(例如通过“我是[MASK]粉丝”来预测第一个[MASK]?

将非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

如果您看清楚文章,并在XLNET上查阅了解释BERT缺点的文章,则意味着给定一句“我[MASK]是[MASK]粉丝”,它会尝试预测两者[MASK]令牌使用句子“我[MASK]一个[MASK]粉丝”,而不是“我[MASK]一个Liverpool粉丝”。

由于此,它仅掩盖了15%的令牌。照原样保留10%的掩码令牌的想法暗示着将无法预测它们。