使用doc2vec获取所有类似的文档

时间:2019-05-07 11:24:55

标签: python gensim doc2vec

我实际上正在与gensim库中的doc2vec合作,我想获得与概率的所有相似之处,而不仅仅是model.docvecs.most_similar()提供的前10个相似之处

模型经过训练

In [1]: print(model)
Out [1]: Doc2vec(...)

如果我使用model.docvecs.most_similar(),我只会获得前十名相似的文档

In [2]: model.docvecs.most_similar('1')
Out [2]: [('2007', 0.9171321988105774),
 ('606', 0.5638039708137512),
 ('2578', 0.530228853225708),
 ('4506', 0.5193327069282532),
 ('2550', 0.5178008675575256),
 ('4620', 0.5098666548728943),
 ('1296', 0.5071642994880676),
 ('3943', 0.5070815086364746),
 ('438', 0.5057751536369324),
 ('1922', 0.5048809051513672)]

我希望获得所有的能力,而不仅仅是进行分析的前十名。

感谢您的帮助:)

1 个答案:

答案 0 :(得分:1)

most_similar()采用可选的topn参数,默认值为10,这意味着仅返回前10个结果。

如果提供另一个整数,例如模型已知的doc-vector总数,则将提供许多排序结果。

(您还可以提供Python None,该Python返回所有相似度未排序的,其顺序与向量存储在模型中的顺序相同。)

请注意,这些值是余弦相似度,范围是-1.0到1.0,不是“概率”。