了解BERT vocab [unusedxxx]令牌:

时间:2020-06-18 14:25:48

标签: huggingface-transformers

我正在尝试了解BERT vocab here。它具有1000个[unusedxxx]令牌。我不遵循这些标记的用法。我了解[SEP],[CLS]等其他特殊标记,但是[未使用]的用途是什么?

谢谢!

1 个答案:

答案 0 :(得分:1)

通过快速搜索可以发现其用法,特别是在讨论original BERT implementation和此HuggingFace thread时。

如果您想在微调或进一步的预训练过程中引入特定的单词,则未使用的令牌会很有帮助;它们使您可以按照自己的意愿对待仅与上下文相关的单词,并避免BERT原始词汇会发生子单词拆分。引用第一次讨论:

只需用您的词汇表替换“ [unusedX]”标记。由于未使用这些参数,因此可以有效地对其进行随机初始化。