为doc2vec加载预先训练的word2vec模型

时间:2017-02-08 16:58:43

标签: machine-learning nlp gensim word2vec doc2vec

我正在使用gensim从文档中提取特征向量。 我从Google下载了名为GoogleNews-vectors-negative300.bin的预训练模型,并使用以下命令加载了该模型:

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

我的目的是从文档中获取特征向量。总而言之,获取相应的矢量非常容易:

vector = model[word]

但是,我不知道如何为文档做这件事。你能帮忙吗?

1 个答案:

答案 0 :(得分:1)

一组单词向量(例如GoogleNews-vectors-negative300.bin)对于Doc2Vec类创建的文本向量(Le / Mikolov' Paragraph Vectors')来说既不必要也不够。相反,它希望通过示例文本进行培训,以学习每个文档向量。然后,训练有素的模型也可以用于推断“模型”。其他新文件的载体。

(Doc2Vec类仅支持load_word2vec_format()方法,因为它继承自Word2Vec类 - 不是因为它需要该功能。)

还有另一种简单的文本向量,可以通过简单地平均文档中的所有单词来创建,也许也可以根据一些单词重要性加权来创建。但那不是Doc2Vec所提供的。