Solr&狮身人面像:如何提高相关性?

时间:2011-07-13 05:24:38

标签: search solr sphinx full-text-search relevance

Sphinx的启用接近度的排名使用略微修改的BM25排名(统计词袋)+最长词 - 子串匹配公式强烈支持后者,而Solr使用其他一些统计排名功能(不是BM25,但类似)+如果需要增加单词双字母(这类似于LWS方法)。我认为这两者都没有模仿人类的相关性观点,因此当答案中的单词不一定相邻或处于相同的顺序时,相关性不会脱离悬崖。

简单示例:

查询:Bob Jones

身体:。 。 。 。琼斯,鲍勃。 。 。 。 (看起来与我相关,但这将回归到仅统计数据)

-OR -

身体:。 。 。 。 Bob MiddleName Jones。 。 。 。 (相同)

我知道这是有代价的,但我不能成为唯一一个注意到如果单词出现故障或分离的话,Solr和Sphinx基本上都会回到单词统计排名中的人一句话,在某些情况下甚至可能是一个停止词。

思考?如果我想将上述任何一个案例的排名高于那些单词出现在文档某处的那些案例,该怎么办?或者我错了,Solr或Sphinx会这样做吗?

1 个答案:

答案 0 :(得分:0)

在solr中有基于邻近度的排名。检查http://wiki.apache.org/solr/SolrRelevancyCookbook#Term_Proximity