Question

是否有人拥有最长公共子串（LCS）的MySQL函数？我找到了一个函数here，但在SQL中。作为一名自学成才的程序员，我不太了解MySQL，而是致力于艺术与语言项目。

Answer 1

MySQL可能不是实现字符串操作函数的最合适的地方，通常我们需要问题来展示所需代码的一些努力。我对这一点有点灵活，因为你至少找到了你正在尝试做的事情的参考，并询问MySQL是否具有原生能力。

它没有。

您还询问是否可以为MySQL重写示例代码。

它不能。它似乎依赖于MySQL Server中未实现的功能。

然而......这个问题引起了我的兴趣，我喜欢在MySQL中做一些不同寻常的事情（有时，能够在数据库中做某事真的很棒，即使它不一定是最有效率的地方，有时它可以说是错误的地方，但仍然很方便）...所以我今天早上洗澡，而不是淋浴，在那段时间，我想出了这个：

DELIMITER $$

DROP FUNCTION IF EXISTS `longest_common_substring` $$
CREATE FUNCTION `longest_common_substring`(short_str TEXT, long_str TEXT) RETURNS text CHARSET utf8
    NO SQL
    DETERMINISTIC
BEGIN
-- http://stackoverflow.com/questions/35545281/mysql-longest-common-substring
DECLARE short_len INT DEFAULT CHAR_LENGTH(short_str);
DECLARE long_len INT DEFAULT CHAR_LENGTH(long_str);
DECLARE swap_str TEXT;

DECLARE max_matched_len INT DEFAULT 0;
DECLARE max_at_left_marker INT DEFAULT NULL;
DECLARE max_at_match_len INT DEFAULT NULL;
DECLARE left_marker INT DEFAULT 0;
DECLARE match_len INT DEFAULT NULL;

IF short_str IS NULL OR long_str IS NULL THEN
  RETURN NULL;
ELSEIF short_str = long_str THEN
  RETURN short_str;
END IF;

IF short_len > long_len THEN
  SET swap_str = long_str;
  SET long_str = short_str;
  SET short_str = swap_str;
  SET short_len = long_len;
  SET long_len = CHAR_LENGTH(long_str);
END IF;

left_loop:
LOOP
  SET left_marker = left_marker + 1;
  IF left_marker + max_matched_len > short_len THEN
    LEAVE left_loop;
  END IF;
  SET match_len = max_matched_len;
  right_loop:
  LOOP
    SET match_len = match_len + 1;
    IF 1 - left_marker + match_len > short_len THEN
      LEAVE right_loop;
    END IF;
    IF long_str LIKE CONCAT ('%',SUBSTRING(short_str FROM left_marker FOR match_len),'%') THEN
      SET max_matched_len = match_len, max_at_left_marker = left_marker;
    ELSE
      LEAVE right_loop;
    END IF;
  END LOOP;
END LOOP;

IF (max_matched_len) THEN
  RETURN SUBSTRING(short_str FROM max_at_left_marker FOR max_matched_len);
ELSE
  RETURN NULL;
END IF;

END $$

DELIMITER ;

它似乎工作正常。

mysql> SELECT longest_common_substring('Lions are growing like yellow roses on the wind','and we turn gracefully in the medieval garden of their roaring blossoms');
+-------------------------------------------------------------------------------------------------------------------------------------------------------+
| longest_common_substring('Lions are growing like yellow roses on the wind','and we turn gracefully in the medieval garden of their roaring blossoms') |
+-------------------------------------------------------------------------------------------------------------------------------------------------------+
| n the                                                                                                                                                 |
+-------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

mysql> SELECT longest_common_substring('die, bart, die','sideshow bob dislikes bart simpson');
+---------------------------------------------------------------------------------+
| longest_common_substring('die, bart, die','sideshow bob dislikes bart simpson') |
+---------------------------------------------------------------------------------+
|  bart                                                                           |
+---------------------------------------------------------------------------------+
1 row in set (0.01 sec)

有一些警告 -

如果有多个＆＃34;最长的＆＃34;子串匹配，即，如果有两个（或更多）＆＃34;最长＆＃34;子串匹配的长度完全相同，第一个匹配将是返回的匹配。

此代码不会将空格或标点符号视为比其他字符更重要，因此在上面的第二个示例中，答案实际上是5个字符，' bart'带有前导空格。可以说，具有5个非空格字符的子字符串将是更好的匹配（如果它存在），并且此代码将找不到它，因为使用了第一个匹配并且除非它们更长，否则不考虑后续匹配。它可以被修改为更复杂，但这基本上是一个概念证明。

mysql> SELECT longest_common_substring('bart and lisa','bart or lisa');
+----------------------------------------------------------+
| longest_common_substring('bart and lisa','bart or lisa') |
+----------------------------------------------------------+
| bart                                                     |
+----------------------------------------------------------+
1 row in set (0.00 sec)

...但是，如果较短的匹配是一个候选者，但是一个未连接的但后面的更长的匹配，结果肯定是预期的。

mysql> SELECT longest_common_substring('bart and maggie','bart or maggie');
+--------------------------------------------------------------+
| longest_common_substring('bart and maggie','bart or maggie') |
+--------------------------------------------------------------+
|  maggie                                                      |
+--------------------------------------------------------------+
1 row in set (0.00 sec)

工作原理：

我们采用两个参数，期望首先使用较短的字符串。如果较长的字符串是第一个，那很好，因为我们在内存中交换它们，但是它花费了我们一点处理时间。

然后我们在长字符串中拖动一个临时子字符串 - 一个特制的短字符串片段 - 检查长字符串是LIKE％+我们的临时子字符串+％。如果没有，我们转到下一个角色。如果是这样，我们将临时子字符串扩大1个字符，直到我们不再匹配 - 但是当我们拥有匹配时，我们保存了它的位置和长度，并将此信息用作后续优化，以避免不必要的比较不可能产生更好的匹配。

我可以将此添加到https://github.com/sqlbot/dtsl-mysql，我的日期，时间和字符串操作函数集合，一旦我准备发布它。

MySQL最常见的子串

1 个答案: