Question

我有带有自定义标记的文本，例如：<adjective>，我正在尝试准备一个不会拆分它们的字节级标记生成器：

tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")

[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]

如何添加<adjective>作为特殊令牌，而不是令牌生成器不应拆分的令牌？

Answer 1

可以通过以下方式添加拥抱面转换器API中的分词器新令牌：

tokenizer.add_tokens('<adjective>')

这会将”添加为单个令牌。

这还需要将模型更新为：

model.resize_token_embeddings(len(tokenizer))