应用错误收集

我已经开始剖析Google（https://arxiv.org/abs/1810.04805）的 BERT 论文，偶然发现了一些我不理解的观点。

我的问题是关于屏蔽语言模型。

首先，我们掩盖了15％的令牌，学习任务是预测这些令牌（收敛似乎是很长的路要走）。

但是我们不是简单地用[MASK]屏蔽它，而是10％的时间：我们用随机令牌替换它。 但是为什么？

此外，在另外10％的时间内，我们将令牌保持不变

这样做的目的是将其表示偏向实际观察到的单词。

这种引用使我完全困惑，在80％的情况下，我们实际上掩盖了它，有10％的情况如何帮助我们保持偏见。

我将不胜感激。