BERT掩蔽语言模型

时间:2019-05-04 11:34:30

标签: machine-learning nlp

我已经开始剖析Google(https://arxiv.org/abs/1810.04805)的 BERT 论文,偶然发现了一些我不理解的观点。

我的问题是关于屏蔽语言模型。

首先,我们掩盖了15%的令牌,学习任务是预测这些令牌(收敛似乎是很长的路要走)。

但是我们不是简单地用[MASK]屏蔽它,而是10%的时间:我们用随机令牌替换它。 但是为什么?

此外,在另外10%的时间内,我们将令牌保持不变

  

这样做的目的是将其表示偏向实际   观察到的单词。

这种引用使我完全困惑,在80%的情况下,我们实际上掩盖了它,有10%的情况如何帮助我们保持偏见。

我将不胜感激。

0 个答案:

没有答案