确定相关性和结果截止值的最佳方法是什么?
因此,我现在正在处理的系统涉及搜索库存并返回结果。每个结果必须由员工审核,以确定它是否真实匹配。显然,我们希望尽量减少返回的错误结果的数量。
我一直在调整提升和内容以使其得分更好,但我们在确定相关性方面仍存在一些问题。
绝对阈值不起作用,因为搜索分数仅相对于给定查询中的结果有意义。因此,一个查询的分数可能与另一个查询的分数无关。
我见过的另一种方法是相对于查询的最高分标准化的分数。然后我们可以返回所有结果,在该分数的x%范围内。但是,如果没有好的结果,那么最好的结果就是很差,而且我们返回的所有结果都会很差。
如何确定哪些文件相关,哪些文件不相关?