我正在寻找BERT模型(you can found the description here)的详细信息,我很难理解需要20%的时间保留或替换随机单词,而不是总是使用[MASK]令牌屏蔽语言模型。
我们尝试训练双向技术,并且文章解释了“ [MASK]令牌在微调过程中从未出现”,但这对我来说是两个不同的步骤,我们首先训练双向,然后再进行下游任务。
如果有人可以向我解释我的理解力在哪里错了。
答案 0 :(得分:1)
如果您在培训期间不使用随机替换,则您的网络将不会学习从非屏蔽令牌中提取有用的功能。
换句话说,如果您仅使用屏蔽并尝试对其进行预测,则为网络提取非屏蔽令牌的良好功能将浪费资源(请记住,您的网络与您的任务一样好,并且它将尝试找到解决任务的最简单方法)