在BERT的原始论文中说:
请注意掩蔽策略的目的 是为了减少预训练之间的不匹配 和微调,因为[MASK]符号在微调阶段从不会出现。
让我们考虑一个句子“我是利物浦球迷”,该句子具有40%的蒙版将转换为“我[面具]一个[面具]球迷”。在预测第一个[MASK]时,会否用完整的句子来表示短语“我[MASK]一个风扇”,而不包括第二个[MASK]或“我[MASK]一个[MASK]风扇”? >
用自己替换10%的屏蔽令牌的目的是什么?这是否意味着它们将不会被预测?还是我们可以根据自己的情况来预测它们(例如通过“我是[MASK]粉丝”来预测第一个[MASK]?
将非常感谢您的帮助!
答案 0 :(得分:0)
如果您看清楚文章,并在XLNET上查阅了解释BERT缺点的文章,则意味着给定一句“我[MASK]是[MASK]粉丝”,它会尝试预测两者[MASK]令牌使用句子“我[MASK]一个[MASK]粉丝”,而不是“我[MASK]一个Liverpool粉丝”。
由于此,它仅掩盖了15%的令牌。照原样保留10%的掩码令牌的想法暗示着将无法预测它们。