余弦相似度与Okapi BM25有何不同?

时间:2019-03-15 01:32:04

标签: elasticsearch nlp information-retrieval cosine-similarity

我正在使用Elasticsearch进行研究。我打算使用余弦相似度,但是我注意到它不可用,取而代之的是我们将BM25作为默认评分功能。

有什么理由吗?余弦相似度不适用于查询文档吗?为什么选择BM25作为默认值? 谢谢

1 个答案:

答案 0 :(得分:1)

长时间弹性搜索使用TF / IDF算法在查询中查找相似性。但是以前的数字版本更有效地更改为BM25。您可以在the documentation中阅读信息。 And good article explains what is elastic search and how to the similarity in ES

您还可以为Elasticsearch编写自定义算法。 Here a good article about how to do