与doc2vec的文档相似性

时间:2018-10-15 12:44:07

标签: python nlp gensim doc2vec

在github中的这个Gensim示例中,https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb在最后提供了一些示例,以查找带有短语或关键字(例如“ lady gaga”或“机器学习”)的相似性。但是我想在纯文本文件中找到与实际文档的相似性,可以这样做吗?我该怎么办?假设文本文件以txt格式位于我的本地笔记本电脑上。

1 个答案:

答案 0 :(得分:1)

对查询文档进行令牌化,使其与训练数据相同。将这些令牌传递到Doc2Vec模型的infer_vector()方法中,以获取查询文档的向量。将该向量传递给most_similar(),以获得与该向量相似的已知文档的排名列表。

有在单元格10中以这种方式使用infer_vector()并在gensim附带的另一个演示笔记本中转发的示例:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb