MySQL - 比较两个字段并以百分比形式返回匹配

时间:2012-11-30 18:54:16

标签: mysql compare

目前我们有一个网站,它将用户添加的文本存储为类型mediumtext。

目前我们的系统正在检查匹配的文本,并在它为1:1时返回true(是的,它匹配)(100%相同 - 一个空格,它将被视为新文本)。

我们正在努力使系统变得更加智能。必须有可能以百分比的形式告诉我们内容是多少(百分比)。不幸的是,我们没有取得良好进展。几乎我们能够想到的每个算法都没有正常工作,或者它非常缓慢而且很重。

我们希望有人能够为我们提供帮助。

注意:我们尝试进行字节比较,但事情无法正常运行。

编辑:我们不仅限于MySQL。我们正在寻找apache solr服务器。如果它有优势,请在这个方向或事件上给予帮助,如果有的话。

1 个答案:

答案 0 :(得分:0)

你需要计算Levenshtein距离。

http://en.wikipedia.org/wiki/Levenshtein_distance

关于SO的示例: MySQL Levenshtein

DELIMITER $$

CREATE FUNCTION LEVENSHTEIN( s1 CHAR(255), s2 CHAR(255)) 
RETURNS int(3) 
DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
    DECLARE s1_char CHAR(255);
    DECLARE cv0, cv1 CHAR(255);

    SET s1_len = LENGTH(s1);
    SET s2_len = LENGTH(s2);
    SET cv1 = 0x00;
    SET j = 1;
    SET i = 1;
    SET c = 0;

    IF s1 = s2 THEN
        RETURN 0;
    ELSE IF s1_len = 0 THEN
        RETURN s2_len;
    ELSE IF s2_len = 0 THEN
        RETURN s1_len;
    ELSE
        WHILE j <= s2_len DO 
          SET c = c + 1; 
          IF s1_char = SUBSTRING(s2, j, 1) THEN  
            SET cost = 0; ELSE SET cost = 1; 
          END IF; 
          SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost; 
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
                IF c > c_temp THEN
                    SET c = c_temp;
                END IF;
                SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
            END WHILE;
            SET cv1 = cv0, i = i + 1;
        END WHILE;
    END IF;
    RETURN c;
END$$

DELIMITER ;