如何正确解读solr相似度得分?

时间:2014-01-27 13:34:54

标签: solr similarity

我知道Solr返回的相似性分数仅与特定查询相关,并且它们只具有相对含义。 话虽如此,有没有办法确定全球时尚分数的“优点”?

例如:假设我运行MLT查询并获得5个文档。每个文档都有一个分数,但事实是分数最高的文档不一定是最相关的。我希望能够指定一个阈值分数,我甚至不会考虑这些文件。

如何确定此阈值?只是通过经验测量,或者我可以说通常是,大于3的相似性得分在内容上有很好的相似性,而小于1的相似性得分通常意味着文档完全不相关?或者,我可以说结果小于文件与自身相似性的80%是不相关的吗?

1 个答案:

答案 0 :(得分:1)

对于给定的文档,Solr可以确定有趣的术语及其权重:

"interestingTerms": 
    ["field_b:foo",5.0,"field_b:bar",2.9085307,"field_b:baz",1.67070794]

可用于生成以下搜索查询:

field_b:foo^5.0 field_b:bar^2.9085307 field_b:baz^1.67070794

所以MLT是AFAIK的两步过程,找到给定文档的有趣术语和权重,然后使用这些术语进行搜索


请参阅https://stackoverflow.com/a/12328229/604511中的http://wiki.apache.org/solr/MoreLikeThisHandler和mlt.interestingTerms。


你有充分的理由获得这样的门槛吗?只需将结果呈现给用户即可。如果相似性较低,则用户将(并且必须被允许)忽略结果。

请参阅以下内容:StackOverflow专注于why does并且不提取有关tomcat的任何内容。但仍然有SO用户一直忽视糟糕的MLT建议。

enter image description here