在doc2vec中获取看不见的段落的段落表示

时间:2016-04-30 18:05:49

标签: classification gensim doc2vec

我想将genism doc2vec模型用于分类任务。 然而,似乎doc2vec的gensim实现需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则,如果您想获得构建词汇表时不存在的文档的文档向量,则会出现错误。我想知道我的理解是否正确!实际上,在培训时,人们无法访问测试数据。

有没有办法在测试时更新词汇表,以便能够获得测试文档的文档表示?

1 个答案:

答案 0 :(得分:2)

您只能查找在培训期间提供的材料的学习文档向量。

但是,有一种方法infer_vector()可以为冻结的训练模型提供一个新的标记化文档,并返回一个“最适合”的向量。它近似于在培训期间可获得新文件时将返回的内容。参见:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector