搜索评分没有道理

时间:2019-02-19 16:57:42

标签: azure-search

我在搜索索引上使用默认评分。索引基于存储在Azure blob存储中的PDF内容。根据我对默认评分的理解,评分结果对我来说没有意义:

  

基于数据和查询的统计属性计算搜索分数。 Azure搜索查找在查询字符串中包含搜索词的文档(某些或全部,取决于searchMode), 包含很多搜索词实例的最喜欢的文档 。如果该术语在整个数据库中很少见,但在文档中很常见,则搜索分数会更高。这种计算相关性的方法的基础被称为TF-IDF或术语频率反文档频率。

Source

如果我输入搜索词“医学检查”,我会发现三个结果得分如下:

Document #1 - "Score":0.0013401981
Count of term "medical" = 2X
Count of term "examination" = 7X

Document #2 - "Score":0.001295743
Count of term "medical" = 5X
Count of term "examination" = 4X

Document #3 - "Score":0.00069354917
Count of term "medical" = 11X
Count of term "examination" = 2X

前2个结果与WRT总体得分相似,尽管它们在PDF正文中出现的频率有所不同。但是,第三个结果的得分最低,但单词的整体频率最高。

有人可以解释这些结果吗?

0 个答案:

没有答案