在XLNet的论文中,解释了掩蔽技术有一个缺点,因为仅当BERT模型是预训练的令牌时才被部分用MASK符号替换(分数15%〜20%),但在微调过程中没有输入已屏蔽令牌。
我的第一个问题是:
当输入句子的第i个标记被屏蔽时,BERT预先训练的掩码语言模型(权重被冻结)是否可以输出第i个标记的自然分布? (此设置在所有其他NLP任务的应用程序中没有意义,但我的目的是了解MASK的作用。)
在这里,不太可能的记号表示两种模式:第一种是预训练语料库中的易用性,例如“我每天都咬狗”这样的句子,其中更有可能是“昨天狗咬我”或“我拍狗”的句子每天。”根据常识,第二种模式是语法错误,例如“我每天都买牛奶”。而不是“我每天都买牛奶”。因此,我的问题是,如何使用具有常识和正确语法的大型语料将“每天给狗狗面具”和“每天给狗狗字节码”输入到相同的预训练BERT模型中,然后做两个相应的预期分布形状有很大不同?
如果第一个问题的答案是肯定的,那么我可以通过这两个预测分布的KL散度函数来检查异常句子与异常标记被屏蔽的句子之间的分布差异吗?