将BertTokenizer与HuggingFace GPT-2一起使用

时间:2020-03-06 15:30:36

标签: nlp huggingface-transformers gpt-2

我有一个特定的生成问题,涉及从很小的词汇量构建的数据集。理想情况下,如果我可以简单地以一组固定的令牌提供该词汇表,那么我的用例就会简单得多。我知道,例如,使用BertTokenizer,我可以提供一个vocab.txt文件,并避免对该基本词汇进行任何进一步的标记化,并且我想知道是否有办法让GPT-2做到这一点?我现在唯一能想到的就是创建一个被入侵的PretrainedTokenizer子类,但是也许有人有更好的主意?

任何想法都很感激。

更新:好的,事实证明,我可以在创建BertTokenizer时换出BertWordpieceTokenizerGPT2LMHeadModel。 (感谢HuggingFace提供精心设计的模块化代码库!)

0 个答案:

没有答案