我有一个特定的生成问题,涉及从很小的词汇量构建的数据集。理想情况下,如果我可以简单地以一组固定的令牌提供该词汇表,那么我的用例就会简单得多。我知道,例如,使用BertTokenizer,我可以提供一个vocab.txt
文件,并避免对该基本词汇进行任何进一步的标记化,并且我想知道是否有办法让GPT-2做到这一点?我现在唯一能想到的就是创建一个被入侵的PretrainedTokenizer
子类,但是也许有人有更好的主意?
任何想法都很感激。
更新:好的,事实证明,我可以在创建BertTokenizer
时换出BertWordpieceTokenizer
和GPT2LMHeadModel
。 (感谢HuggingFace提供精心设计的模块化代码库!)