我已经准备好了我已经训练过的word2vec模型。我已将其序列化为CSV文件:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
我想知道的是如何在gensim
中加载该单词矢量模型并使用它来训练段落或doc2vec模型。
这个Doc2Vec tutorial说我可以以“# C text format
”的形式加载模型,但我不知道这实际意味着什么。什么是“C文本格式”,但更重要的是:
如何从word2vec模型构建词汇表?
答案 0 :(得分:1)
Doc2Vec不需要将单词向量作为输入:它将创建在自己的训练期间所需的任何单词向量。 (有些模式,比如纯DBOW - dm=0, dbow_words=0
- 根本不使用或训练单词向量。)
使用单词向量播种Doc2Vec模型可能会有所帮助或受到伤害;没有太多的理论或公布的结果来提供指导。 Word2Vec上有一个实验方法intersect_word2vec_format()
,它可以将word2vec-c格式向量合并到一个带有现有词汇表的模型中,但是你需要查看源代码才能真正理解它的假设: