许多文本分类模型和嵌入模型使用uni-gram,bi-gram和n-gram作为标记进行分析。我找到了一种使用tfds.features.text.Tokenizer()
从某些文本数据中提取单字组或单词的方法。但是,我想看看是否有一种方法可以使用Tokenizer从文本中提取二元语法或n元语法?我检查了文档,但没有看到每个n克大小的设置,但是也许我错过了一些东西。
提取n元语法的代码来自Tensorflow网站上的其中一本教程:
tokenizer = tfds.features.text.Tokenizer()
vocabulary_set = set()
for text_tensor, _ in all_labeled_data:
some_tokens = tokenizer.tokenize(text_tensor.numpy())
vocabulary_set.update(some_tokens)
vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')