MySQL:使用MySQL相关性搜索的特殊搜索算法

时间:2011-10-24 09:53:40

标签: php mysql relevance

我正在尝试在MySQL中进行搜索,其中用户只有一个字段。该表如下所示:

ID          BIGINT
TITLE       TEXT
DESCRIPTION TEXT
FILENAME    TEXT
TAGS        TEXT
ACTIVE      TINYINT

现在,如果用户仅输入blah blubber,则搜索必须检查字段TITLEDESCRIOTIONFILENAMETAGS中的每个字词。结果本身应按相关性排序,因此字符串出现在记录中的频率如何。我得到了这个示例数据:

ID   | TITLE   | DESCRIPTION  | FILENAME | TAGS | ACTIVE
1    | blah    | blah         | bdsai    | bdha | 1
2    | blubber | blah         | blah     | adsb | 1
3    | blah    | dsabsadsab   | dnsa     | dsa  | 1

在这个例子中,ID 2必须位于顶部(2x blah,1x blubber),然后是1(2x blah)然后是3(1x blah)。这个过程应该是动态的,因此用户也可以输入更多单词,相关性与一个或多个单词相同。

这可能只在MySQL中实现,还是我必须使用一些PHP?这怎么会完全奏效?

非常感谢你的帮助!此致,弗洛里安

编辑:这是我尝试过Tom Mac的答案之后的结果:

我有四条记录,如下所示:

ID  | TITLE | DESCRIPTION | FILENAME | TAGS                          | ACTIVE
1   | s     | s           | s        | s                             | 1
2   | 0     | fdsadf      | sdfs     | a,b,c,d,e,f,s,a,a,s,s,as,sada | 1
3   | 0     | s           | s        | s                             | 1
4   | a     | a           | a        | a                             | 1

现在,如果我搜索字符串s,我应该只获得前三个记录,按照s的相关性排序。这意味着,记录应该像这样订购:

ID | TITLE | DESCRIPTION | FILENAME | TAGS                          | ACTIVE
2  | 0     | fdsadf      | sdfs     | a,b,c,d,e,f,s,a,a,s,s,as,sada | 1        <== 8x s
1  | s     | s           | s        | s                             | 1        <== 4x s
3  | 0     | s           | s        | s                             | 1        <== 3x s

现在,我尝试了这样的查询(表的名称为PAGES):

select t . *
  from (

        select 
              match(title) against('*s*' in boolean mode) 
            + match(description) against('*s*' in boolean mode) 
            + match(filename) against('*s*' in boolean mode) 
            + match(tags) against('*s*' in boolean mode) 
            as matchrank,
                bb . *
          from pages bb) t
 where t.matchrank > 0
 order by t.matchrank desc

此查询返回:

matchRank | ID  | TITLE | DESCRIPTION | FILENAME | TAGS                          | ACTIVE
2         | 2   | 0     | fdsadf      | sdfs     | a,b,c,d,e,f,s,a,a,s,s,as,sada | 1

这是因为通配符吗?我认为,字符串*s*也应该找到一个仅s ...

的值

2 个答案:

答案 0 :(得分:2)

这可能会帮到你。它确实假设你的MySQL表使用了MyISAM引擎:

create table blubberBlah (id int unsigned not null primary key auto_increment,
title varchar(50) not null,
description varchar(50) not null,
filename varchar(50) not null,
tags varchar(50)not null,
active tinyint not null
) engine=MyISAM;

insert into blubberBlah (title,description,filename,tags,active) 
values ('blah','blah','bdsai','bdha',1);
insert into blubberBlah (title,description,filename,tags,active) 
values ('blubber','blah','blah','adsb',1);
insert into blubberBlah (title,description,filename,tags,active) 
values ('blah','dsabsadsab','dnsa','dsa',1);

select t.*
from
(
 select MATCH (title) AGAINST ('blubber blah' IN BOOLEAN MODE)
       +MATCH (description) AGAINST ('blubber blah' IN BOOLEAN MODE)
       +MATCH (fileName) AGAINST ('blubber blah' IN BOOLEAN MODE)
       +MATCH (tags) AGAINST ('blubber blah' IN BOOLEAN MODE) as matchRank,
       bb.*
from blubberBlah bb
) t
order by t.matchRank desc;

修改

此解决方案的另一个假设是您搜索的字符串> = 4个字符长。如果“搜索”字符串(即'blubber'或'blah')可能长度为1,2或3个字符,那么您可以随时转到my.cnf文件并添加ft_min_word_len=1[mysqld]个配置选项。然后重启MySQL,你应该好好去。

最后一件事:如果您正在考虑使用此方法,那么您应该为每个列添加一个FULLTEXT INDEX。因此:

ALTER TABLE blubberBlah add fulltext index `blubberBlahFtIdx1`(`title`);
ALTER TABLE blubberBlah add fulltext index `blubberBlahFtIdx2`(`description`);
ALTER TABLE blubberBlah add fulltext index `blubberBlahFtIdx3`(`filename`);
ALTER TABLE blubberBlah add fulltext index `blubberBlahFtIdx4`(`tags`);

您可以在MySQL Docs找到有关BOOLEAN FULLTEXT搜索的更多详情。

答案 1 :(得分:1)

使用Match()反对()来确定分数,而不是搜索“在布尔模式下”。添加这些分数以获得相关性。