使用布尔全文搜索按相关性排序

时间:2010-08-12 21:21:40

标签: sql mysql full-text-search

我在使用MySQL的全文搜索时遇到问题,并按相关性顺序返回结果。我必须使用布尔全文搜索,它不按相关性按顺序返回结果。但是,我需要这些结果按相关性顺序排列。如果我尝试在查询结束时添加order by子句,则查询会导致使用filesort,这会使查询非常慢(比没有查询慢1000倍)。我不知道可以做些什么。

这是我的问题:

SELECT g.id, MATCH(g.searchable_name) AGAINST ('test*' IN BOOLEAN MODE) AS relevance
 FROM games g
 WHERE MATCH(g.searchable_name) AGAINST ('test*' IN BOOLEAN MODE)
 ORDER BY relevance DESC
 LIMIT 0, 31

提前致谢。

1 个答案:

答案 0 :(得分:0)

首先你应该考虑IN BOOLEAN MODE does not return a score,而不是它返回二进制(1 =找到,0 =未找到):

mysql>SELECT
        topic_id,
        MATCH(topic_text) AGAINST('+tuning' IN BOOLEAN MODE) AS binary
    FROM
        topics_search
    LIMIT 10
+----------+----------+
| topic_id | binary   |
+----------+----------+
| 2        | 0        |
| 4        | 0        |
| 5        | 0        |
| 6        | 1        |
| 7        | 0        |
| 8        | 0        |
| 11       | 0        |
| 12       | 0        |
| 13       | 0        |
| 14       | 0        |
+----------+----------+
10 rows in set (9 ms)

只有自然全文搜索能够生成分数(未给出IN NATURAL LANGUAGE MODE修饰符,因为它是默认模式):

mysql>SELECT SQL_NO_CACHE
        topic_id,
        MATCH(topic_text) AGAINST('tuning') AS score
    FROM
        topics_search
    WHERE
        host_id = 1
    ORDER BY
        score DESC
    LIMIT 10
+--------------------+--------------------+
| topic_id           | score              |
+--------------------+--------------------+
| 153257             | 5.161948204040527  |
| 17925              | 4.781417369842529  |
| 66459              | 4.648380279541016  |
| 373176             | 4.570812702178955  |
| 117173             | 4.55166482925415   |
| 167016             | 4.462575912475586  |
| 183286             | 4.4519267082214355 |
| 366132             | 4.348565101623535  |
| 95502              | 4.293642520904541  |
| 29615              | 4.178250789642334  |
+--------------------+--------------------+
10 rows in set (478 ms)

旁注:难以置信,因为score无法拥有索引。

所以你需要自然搜索来按分数排序。但自然搜索不支持*通配符等运算符。现在我们遇到了困境,因为在tunin*中搜索BOOLEAN并使用密钥NATURALtunin中进行并行搜索没有用,因为没有文字会包含该部分字。

mysql>SELECT SQL_NO_CACHE
        topic_id,
        MATCH(topic_text) AGAINST('tunin') AS score
    FROM
        topics_search
    WHERE
        MATCH(topic_text) AGAINST('tunin*' IN BOOLEAN MODE)
    AND
        MATCH(topic_text) AGAINST('tunin') > 0
    ORDER BY
        score DESC
    LIMIT 10
Empty set (170 ms)

<强>结论
无法使用通配符运算符进行搜索,并按相关性对结果进行排序。

除非你找到一种方法来获取你的全文索引中被通配符搜索命中的所有单词并在第二个查询中使用它们,或者你根据LIKE建立自己的分数并计算里面的单词数量一行结果。有趣的是打开a new question