Question

我在word2vec上使用python gensim包。

我想在令牌化单词和双字短语上运行模型。我有10,000个文件，我使用nltk Regextoknizer从所有文件中获取单个单词标记。如何对文档进行标记化以获得2个单词的短语。

例如：

文件：＆＃34;我有一个青苹果＆＃34;

和2个单词短语：{I_have}，{green_apple}，...等。

Answer 1

一个选项是使用ngrams中的nltk并设置n = 2，以获取元组列表：

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))