将令牌添加到GPT-2 BPE令牌生成器

时间:2020-06-05 15:56:12

标签: python nlp tokenize huggingface-transformers gpt-2

我想向BPE令牌生成器添加新词。我知道符号Ġ表示新令牌的结尾,而经过预训练的令牌生成器的词汇中的大多数令牌都以start开头。假设我要在我的令牌生成器中添加 Salah 一词。我尝试同时添加 Salah 令牌和ĠSalah: tokenizer.add_tokens(['Salah','ĠSalah'])#它们分别获得50265和50266的值。 但是,当我标记出现 Salah 的句子时,令牌生成器将永远不会向我返回第二个数字(使用.tokenize.encode时都不返回),例如: tokenizer.tokenize('I love Salah and salad')返回['I', 'Ġlove', 'Salah', 'Ġand', 'Ġsalad']。 问题是:添加新令牌时应该使用符号Ġ还是令牌生成器本身使用符号?或者,可能必须手动指定它? 预先感谢!

0 个答案:

没有答案