我已经开始剖析Google(https://arxiv.org/abs/1810.04805)的 BERT 论文,偶然发现了一些我不理解的观点。
我的问题是关于屏蔽语言模型。
首先,我们掩盖了15%的令牌,学习任务是预测这些令牌(收敛似乎是很长的路要走)。
但是我们不是简单地用[MASK]屏蔽它,而是10%的时间:我们用随机令牌替换它。 但是为什么?
此外,在另外10%的时间内,我们将令牌保持不变
这样做的目的是将其表示偏向实际 观察到的单词。
这种引用使我完全困惑,在80%的情况下,我们实际上掩盖了它,有10%的情况如何帮助我们保持偏见。
我将不胜感激。