应用错误收集

许多文本分类模型和嵌入模型使用uni-gram，bi-gram和n-gram作为标记进行分析。我找到了一种使用tfds.features.text.Tokenizer()从某些文本数据中提取单字组或单词的方法。但是，我想看看是否有一种方法可以使用Tokenizer从文本中提取二元语法或n元语法？我检查了文档，但没有看到每个n克大小的设置，但是也许我错过了一些东西。

提取n元语法的代码来自Tensorflow网站上的其中一本教程：

tokenizer = tfds.features.text.Tokenizer()

vocabulary_set = set()

for text_tensor, _ in all_labeled_data:
    some_tokens = tokenizer.tokenize(text_tensor.numpy())
    vocabulary_set.update(some_tokens)

vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')

Tensorflow：使用Tensorflow数据集实用程序对二元语法和n元语法进行标记

0 个答案: