python tokenizer 2个单词短语到word2vec模型

时间:2017-09-19 19:21:35

标签: python nltk tokenize

我在word2vec上使用python gensim包。

我想在令牌化单词和双字短语上运行模型。我有10,000个文件,我使用nltk Regextoknizer从所有文件中获取单个单词标记。 如何对文档进行标记化以获得2个单词的短语。

例如:

文件:"我有一个青苹果"

和2个单词短语:{I_have},{green_apple},...等。

1 个答案:

答案 0 :(得分:1)

一个选项是使用ngrams中的nltk并设置n = 2,以获取元组列表:

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))