如何在gensim中加载预先训练好的模型并用它训练doc2vec?

时间:2016-04-23 18:52:33

标签: python gensim word2vec doc2vec

我已经准备好了我已经训练过的word2vec模型。我已将其序列化为CSV文件:

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

我想知道的是如何在gensim中加载该单词矢量模型并使用它来训练段落或doc2vec模型。

这个Doc2Vec tutorial说我可以以“# C text format”的形式加载模型,但我不知道这实际意味着什么。什么是“C文本格式”,但更重要的是:

  • 如何加载word2vec模型并将其用于doc2vec培训?

如何从word2vec模型构建词汇表?

1 个答案:

答案 0 :(得分:1)

Doc2Vec不需要将单词向量作为输入:它将创建在自己的训练期间所需的任何单词向量。 (有些模式,比如纯DBOW - dm=0, dbow_words=0 - 根本不使用或训练单词向量。)

使用单词向量播种Doc2Vec模型可能会有所帮助或受到伤害;没有太多的理论或公布的结果来提供指导。 Word2Vec上有一个实验方法intersect_word2vec_format(),它可以将word2vec-c格式向量合并到一个带有现有词汇表的模型中,但是你需要查看源代码才能真正理解它的假设:

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140