php - 全文搜索得分相关性分析

全文搜索得分相关性分析

时间：2012-07-10 18:17:51

标签： php mysql full-text-search statistics

我在尝试实施全文搜索时遇到了问题。对我而言，接下来就像数学/统计学一样。从数据库中提取的数据是书名，因此查询返回的分数可能具有非常接近的值（例如：9.98; 9.97; 9.78 - 这些都是非常相关的结果）或广泛传播（例如：9.99; 8.2; 2.1 - 前两个相关，第三个是噪音）。我无法弄清楚如何操纵查询结果来删除不相关的。标准偏差不起作用，因为它在我的第一个例子中过滤了良好的结果，各种标准化方法将省略相关结果或包含不相关。请提出任何想法或想法。

感谢。维克多

1 个答案:

答案 0 :(得分：1)

我正在研究一个类似这样的问题，但是使用基于时间的数据而不是全文。我找到了68-95-99.7 rule，其中指出在真正的钟形曲线中，大约95％的结果在平均值的2个标准差内。我掌握了这些知识并决定将5％的结果作为异常值抛弃。您也可以这样做 - 省略5％的全文结果，其中相关性得分最低。

另一种选择可能是选择某个阈值相关性分数，或者您想要显示的某个最小数量的结果。或两者兼而有之 - 您可以根据任何标准显示更多结果。