我想向BPE令牌生成器添加新词。我知道符号Ġ表示新令牌的结尾,而经过预训练的令牌生成器的词汇中的大多数令牌都以start开头。假设我要在我的令牌生成器中添加 Salah 一词。我尝试同时添加 Salah 令牌和ĠSalah:
tokenizer.add_tokens(['Salah','ĠSalah'])#它们分别获得50265和50266的值。
但是,当我标记出现 Salah 的句子时,令牌生成器将永远不会向我返回第二个数字(使用.tokenize
也.encode
时都不返回),例如:
tokenizer.tokenize('I love Salah and salad')
返回['I', 'Ġlove', 'Salah', 'Ġand', 'Ġsalad']
。
问题是:添加新令牌时应该使用符号Ġ
还是令牌生成器本身使用符号?或者,可能必须手动指定它?
预先感谢!