应用错误收集

与doc2vec的文档相似性

时间：2018-10-15 12:44:07

标签： python nlp gensim doc2vec

在github中的这个Gensim示例中，https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb在最后提供了一些示例，以查找带有短语或关键字（例如“ lady gaga”或“机器学习”）的相似性。但是我想在纯文本文件中找到与实际文档的相似性，可以这样做吗？我该怎么办？假设文本文件以txt格式位于我的本地笔记本电脑上。

1 个答案:

答案 0 :(得分：1)

对查询文档进行令牌化，使其与训练数据相同。将这些令牌传递到Doc2Vec模型的infer_vector()方法中，以获取查询文档的向量。将该向量传递给most_similar()，以获得与该向量相似的已知文档的排名列表。

有在单元格10中以这种方式使用infer_vector()并在gensim附带的另一个演示笔记本中转发的示例：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb