应用错误收集

我有一个特定的生成问题，涉及从很小的词汇量构建的数据集。理想情况下，如果我可以简单地以一组固定的令牌提供该词汇表，那么我的用例就会简单得多。我知道，例如，使用BertTokenizer，我可以提供一个vocab.txt文件，并避免对该基本词汇进行任何进一步的标记化，并且我想知道是否有办法让GPT-2做到这一点？我现在唯一能想到的就是创建一个被入侵的PretrainedTokenizer子类，但是也许有人有更好的主意？

任何想法都很感激。

更新：好的，事实证明，我可以在创建BertTokenizer时换出BertWordpieceTokenizer和GPT2LMHeadModel。（感谢HuggingFace提供精心设计的模块化代码库！）

将BertTokenizer与HuggingFace GPT-2一起使用

0 个答案: