我想将genism doc2vec模型用于分类任务。 然而,似乎doc2vec的gensim实现需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则,如果您想获得构建词汇表时不存在的文档的文档向量,则会出现错误。我想知道我的理解是否正确!实际上,在培训时,人们无法访问测试数据。
有没有办法在测试时更新词汇表,以便能够获得测试文档的文档表示?
答案 0 :(得分:2)
您只能查找在培训期间提供的材料的学习文档向量。
但是,有一种方法infer_vector()
可以为冻结的训练模型提供一个新的标记化文档,并返回一个“最适合”的向量。它近似于在培训期间可获得新文件时将返回的内容。参见:
https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector