Question

我实际上正在与gensim库中的doc2vec合作，我想获得与概率的所有相似之处，而不仅仅是model.docvecs.most_similar()提供的前10个相似之处

模型经过训练

In [1]: print(model)
Out [1]: Doc2vec(...)

如果我使用model.docvecs.most_similar()，我只会获得前十名相似的文档

In [2]: model.docvecs.most_similar('1')
Out [2]: [('2007', 0.9171321988105774),
 ('606', 0.5638039708137512),
 ('2578', 0.530228853225708),
 ('4506', 0.5193327069282532),
 ('2550', 0.5178008675575256),
 ('4620', 0.5098666548728943),
 ('1296', 0.5071642994880676),
 ('3943', 0.5070815086364746),
 ('438', 0.5057751536369324),
 ('1922', 0.5048809051513672)]

我希望获得所有的能力，而不仅仅是进行分析的前十名。

感谢您的帮助：）

Answer 1

most_similar()采用可选的topn参数，默认值为10，这意味着仅返回前10个结果。

如果提供另一个整数，例如模型已知的doc-vector总数，则将提供许多排序结果。

（您还可以提供Python None，该Python返回所有相似度未排序的，其顺序与向量存储在模型中的顺序相同。）

请注意，这些值是余弦相似度，范围是-1.0到1.0，不是“概率”。

使用doc2vec获取所有类似的文档

1 个答案: