在github中的这个Gensim示例中,https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb在最后提供了一些示例,以查找带有短语或关键字(例如“ lady gaga”或“机器学习”)的相似性。但是我想在纯文本文件中找到与实际文档的相似性,可以这样做吗?我该怎么办?假设文本文件以txt格式位于我的本地笔记本电脑上。
答案 0 :(得分:1)
对查询文档进行令牌化,使其与训练数据相同。将这些令牌传递到Doc2Vec
模型的infer_vector()
方法中,以获取查询文档的向量。将该向量传递给most_similar()
,以获得与该向量相似的已知文档的排名列表。
有在单元格10中以这种方式使用infer_vector()
并在gensim
附带的另一个演示笔记本中转发的示例:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb