混合的Unigram Bigram word2vec嵌入

时间:2017-10-06 15:50:21

标签: python text-mining gensim word2vec

我正在尝试使用Python的gensim的word2vec实现为语料库构建嵌入。问题在于我希望同样嵌入语料库中的所有unigrams和bigrams。 有没有办法在同一个空间嵌入unigrams和bigrams?

1 个答案:

答案 0 :(得分:0)

您可以使用Gensim中的短语模型来完成

from gensim.models.phrases import Phrases, Phraser

#documents is list is list of tokens from your text
bigram  = Phrases(documents, min_count=2)
trigram   = Phrases(bigram[documents], min_count=1)