需要澄清Solr在评分方面的提升

时间:2018-01-17 01:54:58

标签: solr

我正在尝试在Solr中进行提升,并且对我的文档分数如何受到影响感到困惑。

我有一系列技术文档,其中包含Title, Symptoms, Resolution, Classification, Tags等字段。列出的所有字段必需Tags除外可选。所有字段都复制到_text_,该字段是默认搜索字段。

当我运行默认查询时

http://search:8983/solr/articles-experimental/select?defType=edismax&fl=id,%20tags,%20score&q=virtualization&qf=_text_

热门文章(文章42014)以4.182179的分数返回。本文档在多个字段中有6个单词virtualization的实例 - 标题,症状,分辨率和分类。这篇特别的文章 没有任何标签值。

我现在想尝试增强功能,以便具有与搜索字词匹配的标记值的文章更接近结果的顶部。为此,我发送以下查询

http://search:8983/solr/articles-experimental/select?defType=edismax&fl=id,tags,score&q=virtualization&qf=tags^2%20_text_

将相同的第42014条保留在列表顶部,但现在得分为4.269944。但是,结果 2到65 现在都具有{strong>相同分数4.255975。在非提升查询中,得分范围从4.0565912.7029662

此外,回来的文档ID的集合与以前不完全相同。我当然希望一些的差异,但不是我所看到的范围,考虑到回来的绝大部分文章都将搜索词作为标记。

最终,我无法确切了解提升如何改变分数以及什么是“适当的”提升值。理解它可能是主观的,我应该考虑什么标准?

1 个答案:

答案 0 :(得分:0)

好了,您为edismax设置的所有参数(加上您未设置的所有参数的默认值)Solr现在只运行算法(BM25)并计算所有分数。

您应该使用的特定提升值等无法猜测,您必须尝试重试。这是一个众所周知的痛苦,我甚至构建了vifun工具来帮助我想象不同的参数如何影响edismax的分数。