应用错误收集

时间：2019-09-10 16:09:53

标签： tensorflow masking bert-language-model

在BERT的原始论文中说：

请注意掩蔽策略的目的是为了减少预训练之间的不匹配和微调，因为[MASK]符号在微调阶段从不会出现。

让我们考虑一个句子“我是利物浦球迷”，该句子具有40％的蒙版将转换为“我[面具]一个[面具]球迷”。在预测第一个[MASK]时，会否用完整的句子来表示短语“我[MASK]一个风扇”，而不包括第二个[MASK]或“我[MASK]一个[MASK]风扇”？ >

用自己替换10％的屏蔽令牌的目的是什么？这是否意味着它们将不会被预测？还是我们可以根据自己的情况来预测它们（例如通过“我是[MASK]粉丝”来预测第一个[MASK]？

将非常感谢您的帮助！

答案 0 :(得分：0)

如果您看清楚文章，并在XLNET上查阅了解释BERT缺点的文章，则意味着给定一句“我[MASK]是[MASK]粉丝”，它会尝试预测两者[MASK]令牌使用句子“我[MASK]一个[MASK]粉丝”，而不是“我[MASK]一个Liverpool粉丝”。

由于此，它仅掩盖了15％的令牌。照原样保留10％的掩码令牌的想法暗示着将无法预测它们。