Gensim doc2vec most_similar相当于获取完整文档

时间:2018-05-25 13:50:45

标签: python-3.x nlp text-mining gensim doc2vec

在Gensim的doc2vec实现中,gensim.models.keyedvectors.Doc2VecKeyedVectors.most_similar返回与查询文档最相似的文档的标记和余弦相似度。如果我想要实际文件本身而不是标签怎么办?有没有办法直接执行此操作而不搜索与most_similar返回的标记关联的文档?

另外,有关于此的文件吗?我似乎无法找到一半Gensim课程的文档。

1 个答案:

答案 0 :(得分:1)

Doc2Vec类不能用作以原始格式存储原始文档的完整文档数据库。这需要很多额外的复杂性和状态。

相反,您只需将文档及其特定标记以训练所需的标记化格式呈现,模型仅学习并保留其矢量表示。

如果您需要查找原始文档,则必须维护自己的(标记 - >文档)查找 - 许多项目已经将其作为文档的原始来源。

Doc2Vec类文档位于https://radimrehurek.com/gensim/models/doc2vec.html,但查看gensim docs/notebooks目录中包含的示例Jupyter笔记本也可能有帮助,但也可以在线查看:

https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks

Doc2Vec相关的三个笔记本的文件名以doc2vec-开头。