我正在尝试使用Python的gensim的word2vec实现为语料库构建嵌入。问题在于我希望同样嵌入语料库中的所有unigrams和bigrams。 有没有办法在同一个空间嵌入unigrams和bigrams?
答案 0 :(得分:0)
您可以使用Gensim中的短语模型来完成
from gensim.models.phrases import Phrases, Phraser
#documents is list is list of tokens from your text
bigram = Phrases(documents, min_count=2)
trigram = Phrases(bigram[documents], min_count=1)