Tensorflow:使用Tensorflow数据集实用程序对二元语法和n元语法进行标记

时间:2019-04-26 07:49:01

标签: python tensorflow nlp tokenize

许多文本分类模型和嵌入模型使用uni-gram,bi-gram和n-gram作为标记进行分析。我找到了一种使用tfds.features.text.Tokenizer()从某些文本数据中提取单字组或单词的方法。但是,我想看看是否有一种方法可以使用Tokenizer从文本中提取二元语法或n元语法?我检查了文档,但没有看到每个n克大小的设置,但是也许我错过了一些东西。

提取n元语法的代码来自Tensorflow网站上的其中一本教程:

tokenizer = tfds.features.text.Tokenizer()

vocabulary_set = set()

for text_tensor, _ in all_labeled_data:
    some_tokens = tokenizer.tokenize(text_tensor.numpy())
    vocabulary_set.update(some_tokens)

vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')

0 个答案:

没有答案