Question

我在搜索索引上使用默认评分。索引基于存储在Azure blob存储中的PDF内容。根据我对默认评分的理解，评分结果对我来说没有意义：

基于数据和查询的统计属性计算搜索分数。 Azure搜索查找在查询字符串中包含搜索词的文档（某些或全部，取决于searchMode）， 包含很多搜索词实例的最喜欢的文档 。如果该术语在整个数据库中很少见，但在文档中很常见，则搜索分数会更高。这种计算相关性的方法的基础被称为TF-IDF或术语频率反文档频率。

Source

如果我输入搜索词“医学检查”，我会发现三个结果得分如下：

Document #1 - "Score":0.0013401981
Count of term "medical" = 2X
Count of term "examination" = 7X

Document #2 - "Score":0.001295743
Count of term "medical" = 5X
Count of term "examination" = 4X

Document #3 - "Score":0.00069354917
Count of term "medical" = 11X
Count of term "examination" = 2X

前2个结果与WRT总体得分相似，尽管它们在PDF正文中出现的频率有所不同。但是，第三个结果的得分最低，但单词的整体频率最高。

有人可以解释这些结果吗？

搜索评分没有道理

0 个答案: