如何确定Lucene相关性/截止值?

时间:2014-08-08 17:45:18

标签: lucene search-engine

确定相关性和结果截止值的最佳方法是什么?

因此,我现在正在处理的系统涉及搜索库存并返回结果。每个结果必须由员工审核,以确定它是否真实匹配。显然,我们希望尽量减少返回的错误结果的数量。

我一直在调整提升和内容以使其得分更好,但我们在确定相关性方面仍存在一些问题。

绝对阈值不起作用,因为搜索分数仅相对于给定查询中的结果有意义。因此,一个查询的分数可能与另一个查询的分数无关。

我见过的另一种方法是相对于查询的最高分标准化的分数。然后我们可以返回所有结果,在该分数的x%范围内。但是,如果没有好的结果,那么最好的结果就是很差,而且我们返回的所有结果都会很差。

如何确定哪些文件相关,哪些文件不相关?

0 个答案:

没有答案