我在尝试实施全文搜索时遇到了问题。对我而言,接下来就像数学/统计学一样。从数据库中提取的数据是书名,因此查询返回的分数可能具有非常接近的值(例如:9.98; 9.97; 9.78 - 这些都是非常相关的结果)或广泛传播(例如:9.99; 8.2; 2.1 - 前两个相关,第三个是噪音)。我无法弄清楚如何操纵查询结果来删除不相关的。标准偏差不起作用,因为它在我的第一个例子中过滤了良好的结果,各种标准化方法将省略相关结果或包含不相关。请提出任何想法或想法。
感谢。 维克多
答案 0 :(得分:1)
我正在研究一个类似这样的问题,但是使用基于时间的数据而不是全文。我找到了68-95-99.7 rule,其中指出在真正的钟形曲线中,大约95%的结果在平均值的2个标准差内。我掌握了这些知识并决定将5%的结果作为异常值抛弃。您也可以这样做 - 省略5%的全文结果,其中相关性得分最低。
另一种选择可能是选择某个阈值相关性分数,或者您想要显示的某个最小数量的结果。或两者兼而有之 - 您可以根据任何标准显示更多结果。