我实际上正在与gensim库中的doc2vec
合作,我想获得与概率的所有相似之处,而不仅仅是model.docvecs.most_similar()
提供的前10个相似之处
模型经过训练
In [1]: print(model)
Out [1]: Doc2vec(...)
如果我使用model.docvecs.most_similar()
,我只会获得前十名相似的文档
In [2]: model.docvecs.most_similar('1')
Out [2]: [('2007', 0.9171321988105774),
('606', 0.5638039708137512),
('2578', 0.530228853225708),
('4506', 0.5193327069282532),
('2550', 0.5178008675575256),
('4620', 0.5098666548728943),
('1296', 0.5071642994880676),
('3943', 0.5070815086364746),
('438', 0.5057751536369324),
('1922', 0.5048809051513672)]
我希望获得所有的能力,而不仅仅是进行分析的前十名。
感谢您的帮助:)
答案 0 :(得分:1)
most_similar()
采用可选的topn
参数,默认值为10
,这意味着仅返回前10个结果。
如果提供另一个整数,例如模型已知的doc-vector总数,则将提供许多排序结果。
(您还可以提供Python None
,该Python返回所有相似度未排序的,其顺序与向量存储在模型中的顺序相同。)
请注意,这些值是余弦相似度,范围是-1.0到1.0,不是“概率”。