Question

我知道Solr返回的相似性分数仅与特定查询相关，并且它们只具有相对含义。话虽如此，有没有办法确定全球时尚分数的“优点”？

例如：假设我运行MLT查询并获得5个文档。每个文档都有一个分数，但事实是分数最高的文档不一定是最相关的。我希望能够指定一个阈值分数，我甚至不会考虑这些文件。

如何确定此阈值？只是通过经验测量，或者我可以说通常是，大于3的相似性得分在内容上有很好的相似性，而小于1的相似性得分通常意味着文档完全不相关？或者，我可以说结果小于文件与自身相似性的80％是不相关的吗？

Answer 1

对于给定的文档，Solr可以确定有趣的术语及其权重：

"interestingTerms": 
    ["field_b:foo",5.0,"field_b:bar",2.9085307,"field_b:baz",1.67070794]

可用于生成以下搜索查询：

field_b:foo^5.0 field_b:bar^2.9085307 field_b:baz^1.67070794

所以MLT是AFAIK的两步过程，找到给定文档的有趣术语和权重，然后使用这些术语进行搜索

你有充分的理由获得这样的门槛吗？只需将结果呈现给用户即可。如果相似性较低，则用户将（并且必须被允许）忽略结果。

请参阅以下内容：StackOverflow专注于why does并且不提取有关tomcat的任何内容。但仍然有SO用户一直忽视糟糕的MLT建议。

enter image description here