如何查询按相似性排序的记录?
EG。搜索“Stock Overflow”将返回
EG。搜索“LO”将返回:
使用搜索引擎索引&搜索MySQL表,以获得更好的结果
使用全文索引,查找类似/包含字符串
LIKE
返回更好的结果,但对于长查询不返回任何内容,尽管确实存在类似的字符串
答案 0 :(得分:82)
我发现当你在另一个完整字符串中搜索完整字符串时,Levenshtein距离可能会很好,但是当你在字符串中查找关键字时,这种方法不会(有时)返回想要的结果。此外,SOUNDEX功能不适用于英语以外的语言,因此它非常有限。你可以逃避LIKE,但它确实适用于基本搜索。您可能希望查看其他搜索方法以了解您想要实现的目标。例如:
您可以使用Lucene作为项目的搜索基础。它在大多数主流编程语言中实现,并且速度快且功能多样。这种方法可能是最好的,因为它不仅搜索子字符串,还搜索字母转置,前缀和后缀(全部组合)。但是,您需要保留一个单独的索引(使用CRON可以偶尔从独立脚本更新它)。
或者,如果你想要一个MySQL解决方案,全文功能非常好,当然比存储过程更快。如果您的表不是MyISAM,您可以创建一个临时表,然后执行全文搜索:
CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`title` varchar(2000) CHARACTER SET latin1 NOT NULL,
`description` text CHARACTER SET latin1 NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;
如果您不想自己创建一些随机数据,请使用data generator生成...
** 注意 **:列类型应为latin1_bin
,以执行区分大小写的搜索,而不是latin1
不区分大小写。对于unicode字符串,我建议utf8_bin
用于区分大小写,utf8_general_ci
用于不区分大小写的搜索。
DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
SELECT * FROM `tests`.`data_table`;
ALTER TABLE `tests`.`data_table_temp` ENGINE = MYISAM;
ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
`title` ,
`description`
);
SELECT *,
MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
FROM `tests`.`data_table_temp`
WHERE MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
ORDER BY `score` DESC;
DROP TABLE `tests`.`data_table_temp`;
了解详情
这样做的缺点是,它不会寻找字母换位或“类似,听起来像”字样。
** 更新 **
使用Lucene进行搜索,您只需创建一个cron作业(所有Web主机都有此“功能”),此作业将只执行一个PHP脚本(ig“cd / path / to / script; php searchindexer) .php“)将更新索引。原因是索引数千个“文档”(行,数据等)可能需要几秒钟甚至几分钟,但这是为了确保尽可能快地执行所有搜索。因此,您可能希望创建一个由服务器运行的延迟作业。可能是一夜之间,或者在接下来的一个小时内,这取决于您。 PHP脚本应如下所示:
$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
// change this option for your need
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
$rowSet = getDataRowSet(); // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
;
$indexer->addDocument($doc);
}
// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this
$indexer->optimize(); // do this every time you add more data to you indexer...
$indexer->commit(); // finalize the process
然后,这基本上就是你搜索的方式(基本搜索):
$index = Zend_Search_Lucene::open('/path/to/lucene/data');
// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');
$query = 'php +field1:foo'; // search for the word 'php' in any field,
// +search for 'foo' in field 'field1'
$hits = $index->find($query);
$numHits = count($hits);
foreach ($hits as $hit) {
$score = $hit->score; // the hit weight
$field1 = $hit->field1;
// etc.
}
以下是Java,PHP和.Net中关于Lucene的精彩网站。
总之每种搜索方法各有利弊:
如果我遗忘/错过任何内容,请随时发表评论。
答案 1 :(得分:20)
<强> 1。相似性强>
对于MySQL中的Levenshtein,我发现了这一点,来自 www.codejanitor.com/wp/2007/02/10/levenshtein-distance-as-a-mysql-stored-function
SELECT
column,
LEVENSHTEIN(column, 'search_string') AS distance
FROM table
WHERE
LEVENSHTEIN(column, 'search_string') < distance_limit
ORDER BY distance DESC
<强> 2。包含,不区分大小写
使用MySQL的LIKE
语句,默认情况下不区分大小写。 %
是通配符,因此search_string
之前和之后可能有任何字符串。
SELECT
*
FROM
table
WHERE
column_name LIKE "%search_string%"
第3。包含,区分大小写
MySQL Manual有帮助:
默认字符集和排序规则是latin1和latin1_swedish_ci,因此非二进制字符串比较默认情况下不区分大小写。这意味着如果使用col_name LIKE'a%'进行搜索,则会获得以A或a开头的所有列值。要使此搜索区分大小写,请确保其中一个操作数具有区分大小写或二进制排序规则。例如,如果要比较具有latin1字符集的列和字符串,则可以使用COLLATE运算符使任一操作数具有latin1_general_cs或latin1_bin排序规则...
我的MySQL设置不支持latin1_general_cs
或latin1_bin
,但我可以使用排序规则utf8_bin
,因为二进制utf8区分大小写:
SELECT
*
FROM
table
WHERE
column_name LIKE "%search_string%" COLLATE utf8_bin
<强> 2。 / 3.按Levenshtein距离排序
SELECT
column,
LEVENSHTEIN(column, 'search_string') AS distance // for sorting
FROM table
WHERE
column_name LIKE "%search_string%"
COLLATE utf8_bin // for case sensitivity, just leave out for CI
ORDER BY
distance
DESC
答案 2 :(得分:3)
似乎您对相似性的定义是语义相似性。因此,为了构建这样的相似性函数,您应该使用语义相似性度量。 请注意,该问题的工作范围可能从几个小时到几年不等,因此建议在开始工作之前确定范围。 我没有弄清楚你有什么数据来建立相似关系。我假设您已经访问了文档数据集和查询数据集。 您可以从单词的共现开始(例如,条件概率)。 您会很快发现,stop words列表与大多数单词相关,因为它们非常受欢迎。 使用条件概率的提升将处理停用词,但会使关系容易出错(少数情况下)。 您可以尝试Jacard,但由于它是对称的,因此会找不到许多关系。 然后你可能会考虑只与基本词相距很近的关系。您可以(并且应该)考虑基于一般语料库(例如,维基百科)和用户特定(例如,他的电子邮件)的关系。
很快,当所有措施都很好并且比其他措施有一些优势时,你会有很多相似性措施。
为了结合这些措施,我喜欢将问题简化为分类问题。
您应该构建一个单词paris的数据集,并将它们标记为“相关”。 要构建大型标记数据集,您可以:
然后使用您拥有的所有度量作为对的特征。 现在您处于监督分类问题的领域。 在数据集上构建分类器,根据您的需求进行评估,并获得符合您需求的相似性度量。