目前我们有一个网站,它将用户添加的文本存储为类型mediumtext。
目前我们的系统正在检查匹配的文本,并在它为1:1时返回true(是的,它匹配)(100%相同 - 一个空格,它将被视为新文本)。
我们正在努力使系统变得更加智能。必须有可能以百分比的形式告诉我们内容是多少(百分比)。不幸的是,我们没有取得良好进展。几乎我们能够想到的每个算法都没有正常工作,或者它非常缓慢而且很重。
我们希望有人能够为我们提供帮助。
注意:我们尝试进行字节比较,但事情无法正常运行。
编辑:我们不仅限于MySQL。我们正在寻找apache solr服务器。如果它有优势,请在这个方向或事件上给予帮助,如果有的话。
答案 0 :(得分:0)
你需要计算Levenshtein距离。
http://en.wikipedia.org/wiki/Levenshtein_distance
关于SO的示例: MySQL Levenshtein
DELIMITER $$
CREATE FUNCTION LEVENSHTEIN( s1 CHAR(255), s2 CHAR(255))
RETURNS int(3)
DETERMINISTIC
BEGIN
DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
DECLARE s1_char CHAR(255);
DECLARE cv0, cv1 CHAR(255);
SET s1_len = LENGTH(s1);
SET s2_len = LENGTH(s2);
SET cv1 = 0x00;
SET j = 1;
SET i = 1;
SET c = 0;
IF s1 = s2 THEN
RETURN 0;
ELSE IF s1_len = 0 THEN
RETURN s2_len;
ELSE IF s2_len = 0 THEN
RETURN s1_len;
ELSE
WHILE j <= s2_len DO
SET c = c + 1;
IF s1_char = SUBSTRING(s2, j, 1) THEN
SET cost = 0; ELSE SET cost = 1;
END IF;
SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
IF c > c_temp THEN
SET c = c_temp;
END IF;
SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
END WHILE;
SET cv1 = cv0, i = i + 1;
END WHILE;
END IF;
RETURN c;
END$$
DELIMITER ;