我在word2vec上使用python gensim包。
我想在令牌化单词和双字短语上运行模型。我有10,000个文件,我使用nltk Regextoknizer从所有文件中获取单个单词标记。 如何对文档进行标记化以获得2个单词的短语。
例如:
文件:"我有一个青苹果"
和2个单词短语:{I_have},{green_apple},...等。
答案 0 :(得分:1)
一个选项是使用ngrams
中的nltk
并设置n = 2,以获取元组列表:
from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))