应用错误收集

屏蔽语言模型处理，更深入的解释

时间：2019-03-08 15:09:40

标签： nlp stanford-nlp

我正在寻找BERT模型（you can found the description here）的详细信息，我很难理解需要20％的时间保留或替换随机单词，而不是总是使用[MASK]令牌屏蔽语言模型。

我们尝试训练双向技术，并且文章解释了“ [MASK]令牌在微调过程中从未出现”，但这对我来说是两个不同的步骤，我们首先训练双向，然后再进行下游任务。

如果有人可以向我解释我的理解力在哪里错了。

1 个答案:

答案 0 :(得分：1)

如果您在培训期间不使用随机替换，则您的网络将不会学习从非屏蔽令牌中提取有用的功能。

换句话说，如果您仅使用屏蔽并尝试对其进行预测，则为网络提取非屏蔽令牌的良好功能将浪费资源（请记住，您的网络与您的任务一样好，并且它将尝试找到解决任务的最简单方法）