从未经训练的数据集构建doc2vec中句子的向量

时间:2015-09-26 11:05:54

标签: python machine-learning nlp gensim word2vec

我的数据中有doc2vec模型构建,现在我在运行时有一个新句子,它不属于经过训练的数据集。

如何从我的模型构建或预测该句子的向量?

我该如何处理这句话中的未知单词?

1 个答案:

答案 0 :(得分:4)

Gensim(开发版)似乎有一种推断新句子向量的方法。查看https://github.com/gojomo/gensim/blob/develop/gensim/models/doc2vec.py

中的model.infer_vector(NewDocument)方法