Question

我有一张约500k行的表; varchar（255）UTF8列filename包含文件名;

我试图从文件名中删除各种奇怪的字符 - 我以为我会使用字符类：[^a-zA-Z0-9()_ .\-]

现在， MySQL中是否有一个函数可以让您通过正则表达式替换？我正在寻找与REPLACE（）函数类似的功能 - 简化示例如下：

SELECT REPLACE('stackowerflow', 'ower', 'over');

Output: "stackoverflow"

/* does something like this exist? */
SELECT X_REG_REPLACE('Stackoverflow','/[A-Zf]/','-'); 

Output: "-tackover-low"

我知道REGEXP/RLIKE，但那些只检查，如果匹配，而不是匹配的。

（我可以从PHP脚本执行“SELECT pkey_id,filename FROM foo WHERE filename RLIKE '[^a-zA-Z0-9()_ .\-]'”，执行preg_replace然后“UPDATE foo ... WHERE pkey_id=...”，但这看起来像是最后一个 - 缓慢而丑陋的黑客攻击）

Answer 1

没有

但是如果您可以访问您的服务器，则可以使用mysql-udf-regexp之类的用户定义函数（UDF）。

编辑： MySQL 8.0+您可以使用本机REGEXP_REPLACE。更多上面的回答

Answer 2

改用MariaDB。它有一个功能

REGEXP_REPLACE(col, regexp, replace)

请参阅MariaDB docs和PCRE Regular expression enhancements

请注意，您也可以使用正则表达式分组（我发现它非常有用）：

SELECT REGEXP_REPLACE("stackoverflow", "(stack)(over)(flow)", '\\2 - \\1 - \\3')

返回

over - stack - flow

Answer 3

我的强力方法让它发挥作用只是：

转储表格 - mysqldump -u user -p database table > dump.sql
查找并替换几个模式 - find /path/to/dump.sql -type f -exec sed -i 's/old_string/new_string/g' {} \;，显然您还可以在文件上执行其他perl regeular表达式。
导入表格 - mysqlimport -u user -p database table < dump.sql

如果要确保字符串不在数据集的其他位置，请运行一些正则表达式以确保它们都出现在类似的环境中。在运行替换之前创建备份并不困难，以防您意外破坏丢失信息深度的内容。

Answer 4

我最近编写了一个MySQL函数来使用正则表达式替换字符串。你可以在以下位置找到我的帖子：

http://techras.wordpress.com/2011/06/02/regex-replace-for-mysql/

这是功能代码：

DELIMITER $$

CREATE FUNCTION  `regex_replace`(pattern VARCHAR(1000),replacement VARCHAR(1000),original VARCHAR(1000))
RETURNS VARCHAR(1000)
DETERMINISTIC
BEGIN 
 DECLARE temp VARCHAR(1000); 
 DECLARE ch VARCHAR(1); 
 DECLARE i INT;
 SET i = 1;
 SET temp = '';
 IF original REGEXP pattern THEN 
  loop_label: LOOP 
   IF i>CHAR_LENGTH(original) THEN
    LEAVE loop_label;  
   END IF;
   SET ch = SUBSTRING(original,i,1);
   IF NOT ch REGEXP pattern THEN
    SET temp = CONCAT(temp,ch);
   ELSE
    SET temp = CONCAT(temp,replacement);
   END IF;
   SET i=i+1;
  END LOOP;
 ELSE
  SET temp = original;
 END IF;
 RETURN temp;
END$$

DELIMITER ;

执行示例：

mysql> select regex_replace('[^a-zA-Z0-9\-]','','2my test3_text-to. check \\ my- sql (regular) ,expressions ._,');

Answer 5

MySQL 8.0+你可以原生使用REGEXP_REPLACE。

12.5.2 Regular Expressions：

REGEXP_REPLACE（expr，pat，repl [，pos [，occurrence [，match_type]]]）

将字符串expr中与模式pat指定的正则表达式匹配的匹配项替换为替换字符串repl，并返回结果字符串。如果expr，pat或repl为NULL，则返回值为NULL。

和Regular expression support：

以前，MySQL使用Henry Spencer正则表达式库来支持正则表达式运算符（REGEXP，RLIKE）。

正则表达式支持已使用国际Unicode组件（ICU）重新实现，它提供完整的Unicode支持并且是多字节安全的。 REGEXP_LIKE（）函数以REGEXP和RLIKE运算符的方式执行正则表达式匹配，这些运算符现在是该函数的同义词。 此外，REGEXP_INSTR（），REGEXP_REPLACE（）和REGEXP_SUBSTR（）函数可用于查找匹配位置并分别执行子字符串替换和提取。

SELECT REGEXP_REPLACE('Stackoverflow','[A-Zf]','-',1,0,'c'); 
-- Output:
-tackover-low

<强> DBFiddle Demo

Answer 6

我们在不使用正则表达式的情况下解决了这个问题此查询仅替换完全匹配字符串。

update employee set
employee_firstname = 
trim(REPLACE(concat(" ",employee_firstname," "),' jay ',' abc '))

示例：

emp_id employee_firstname

1 jay

2 jay ajay

3 jay

执行查询结果后：

emp_id employee_firstname

1 abc

2 abc ajay

3 abc

Answer 7

我很高兴地报告，自从提出这个问题以来，现在有一个满意的答案！看看这个了不起的包：

https://github.com/mysqludf/lib_mysqludf_preg

示例SQL：

SELECT PREG_REPLACE('/(.*?)(fox)/' , 'dog' , 'the quick brown fox' ) AS demo;

我发现this blog post上的this question包已链接到<{3}}。

Answer 8

更新2：现在，MySQL 8.0中提供了一组有用的正则表达式函数，包括REGEXP_REPLACE。除非您限制使用早期版本，否则这会使阅读变得不必要。

更新1：现在已将此内容发布到博文中：http://stevettt.blogspot.co.uk/2018/02/a-mysql-regular-expression-replace.html

以下内容扩展了function provided by Rasika Godawatte，但是拖拽了所有必要的子字符串，而不仅仅是测试单个字符：

-- ------------------------------------------------------------------------------------
-- USAGE
-- ------------------------------------------------------------------------------------
-- SELECT reg_replace(<subject>,
--                    <pattern>,
--                    <replacement>,
--                    <greedy>,
--                    <minMatchLen>,
--                    <maxMatchLen>);
-- where:
-- <subject> is the string to look in for doing the replacements
-- <pattern> is the regular expression to match against
-- <replacement> is the replacement string
-- <greedy> is TRUE for greedy matching or FALSE for non-greedy matching
-- <minMatchLen> specifies the minimum match length
-- <maxMatchLen> specifies the maximum match length
-- (minMatchLen and maxMatchLen are used to improve efficiency but are
--  optional and can be set to 0 or NULL if not known/required)
-- Example:
-- SELECT reg_replace(txt, '^[Tt][^ ]* ', 'a', TRUE, 2, 0) FROM tbl;
DROP FUNCTION IF EXISTS reg_replace;
DELIMITER //
CREATE FUNCTION reg_replace(subject VARCHAR(21845), pattern VARCHAR(21845),
  replacement VARCHAR(21845), greedy BOOLEAN, minMatchLen INT, maxMatchLen INT)
RETURNS VARCHAR(21845) DETERMINISTIC BEGIN 
  DECLARE result, subStr, usePattern VARCHAR(21845); 
  DECLARE startPos, prevStartPos, startInc, len, lenInc INT;
  IF subject REGEXP pattern THEN
    SET result = '';
    -- Sanitize input parameter values
    SET minMatchLen = IF(minMatchLen < 1, 1, minMatchLen);
    SET maxMatchLen = IF(maxMatchLen < 1 OR maxMatchLen > CHAR_LENGTH(subject),
                         CHAR_LENGTH(subject), maxMatchLen);
    -- Set the pattern to use to match an entire string rather than part of a string
    SET usePattern = IF (LEFT(pattern, 1) = '^', pattern, CONCAT('^', pattern));
    SET usePattern = IF (RIGHT(pattern, 1) = '$', usePattern, CONCAT(usePattern, '$'));
    -- Set start position to 1 if pattern starts with ^ or doesn't end with $.
    IF LEFT(pattern, 1) = '^' OR RIGHT(pattern, 1) <> '$' THEN
      SET startPos = 1, startInc = 1;
    -- Otherwise (i.e. pattern ends with $ but doesn't start with ^): Set start pos
    -- to the min or max match length from the end (depending on "greedy" flag).
    ELSEIF greedy THEN
      SET startPos = CHAR_LENGTH(subject) - maxMatchLen + 1, startInc = 1;
    ELSE
      SET startPos = CHAR_LENGTH(subject) - minMatchLen + 1, startInc = -1;
    END IF;
    WHILE startPos >= 1 AND startPos <= CHAR_LENGTH(subject)
      AND startPos + minMatchLen - 1 <= CHAR_LENGTH(subject)
      AND !(LEFT(pattern, 1) = '^' AND startPos <> 1)
      AND !(RIGHT(pattern, 1) = '$'
            AND startPos + maxMatchLen - 1 < CHAR_LENGTH(subject)) DO
      -- Set start length to maximum if matching greedily or pattern ends with $.
      -- Otherwise set starting length to the minimum match length.
      IF greedy OR RIGHT(pattern, 1) = '$' THEN
        SET len = LEAST(CHAR_LENGTH(subject) - startPos + 1, maxMatchLen), lenInc = -1;
      ELSE
        SET len = minMatchLen, lenInc = 1;
      END IF;
      SET prevStartPos = startPos;
      lenLoop: WHILE len >= 1 AND len <= maxMatchLen
                 AND startPos + len - 1 <= CHAR_LENGTH(subject)
                 AND !(RIGHT(pattern, 1) = '$' 
                       AND startPos + len - 1 <> CHAR_LENGTH(subject)) DO
        SET subStr = SUBSTRING(subject, startPos, len);
        IF subStr REGEXP usePattern THEN
          SET result = IF(startInc = 1,
                          CONCAT(result, replacement), CONCAT(replacement, result));
          SET startPos = startPos + startInc * len;
          LEAVE lenLoop;
        END IF;
        SET len = len + lenInc;
      END WHILE;
      IF (startPos = prevStartPos) THEN
        SET result = IF(startInc = 1, CONCAT(result, SUBSTRING(subject, startPos, 1)),
                        CONCAT(SUBSTRING(subject, startPos, 1), result));
        SET startPos = startPos + startInc;
      END IF;
    END WHILE;
    IF startInc = 1 AND startPos <= CHAR_LENGTH(subject) THEN
      SET result = CONCAT(result, RIGHT(subject, CHAR_LENGTH(subject) + 1 - startPos));
    ELSEIF startInc = -1 AND startPos >= 1 THEN
      SET result = CONCAT(LEFT(subject, startPos), result);
    END IF;
  ELSE
    SET result = subject;
  END IF;
  RETURN result;
END//
DELIMITER ;

<强>演示

Rextester Demo

<强>限制

这个方法当然会在主题上花一些时间字符串很大。 更新： 现已添加最小和最大匹配长度参数，以便在知道这些参数时提高效率（零=未知/无限制）。
赢得允许替换反向引用（例如\1，\2 等）替换捕获组。如果需要此功能，请参阅this answer，它会尝试通过更新功能来提供解决方法，以便在每个找到的匹配项中进行辅助查找和替换（以增加复杂性为代价）。
如果在模式中使用^和/或$，则它们必须分别位于开头和结尾 - 例如不支持(^start|end$)等模式。
有一个＆＃34;贪心＆＃34;用于指定整体匹配是贪婪还是非贪婪的标志。不支持在单个正则表达式（例如a.*?b.*）中组合贪婪和惰性匹配。

使用示例

该函数已用于回答以下StackOverflow问题：

Answer 9

你可以'做'但是这不是很明智......这就像我会尝试的那样大胆......只要完整的RegEx支持你使用perl之类的东西就更好了。

UPDATE db.tbl
SET column = 
CASE 
WHEN column REGEXP '[[:<:]]WORD_TO_REPLACE[[:>:]]' 
THEN REPLACE(column,'WORD_TO_REPLACE','REPLACEMENT')
END 
WHERE column REGEXP '[[:<:]]WORD_TO_REPLACE[[:>:]]'

Answer 10

我们可以在SELECT查询中使用IF条件，如下所示：

假设对于＆＃34; ABC＆＃34;，＆＃34; ABC1＆＃34;，＆＃34; ABC2＆＃34;，＆＃34; ABC3＆＃34;，...，我们想要的任何东西取代＆＃34; ABC＆＃34;然后在SELECT查询中使用REGEXP和IF（）条件，我们就可以实现这一点。

语法：

SELECT IF(column_name REGEXP 'ABC[0-9]$','ABC',column_name)
FROM table1 
WHERE column_name LIKE 'ABC%';

示例：

SELECT IF('ABC1' REGEXP 'ABC[0-9]$','ABC','ABC1');

Answer 11

下面的那个基本上是从左侧找到第一个匹配项，然后替换所有匹配项（在mysql-5.6中进行了测试）。

用法：

SELECT REGEX_REPLACE('dis ambiguity', 'dis[[:space:]]*ambiguity', 'disambiguity');

实现：

DELIMITER $$
CREATE FUNCTION REGEX_REPLACE(
  var_original VARCHAR(1000),
  var_pattern VARCHAR(1000),
  var_replacement VARCHAR(1000)
  ) RETURNS
    VARCHAR(1000)
  COMMENT 'Based on https://techras.wordpress.com/2011/06/02/regex-replace-for-mysql/'
BEGIN
  DECLARE var_replaced VARCHAR(1000) DEFAULT var_original;
  DECLARE var_leftmost_match VARCHAR(1000) DEFAULT
    REGEX_CAPTURE_LEFTMOST(var_original, var_pattern);
    WHILE var_leftmost_match IS NOT NULL DO
      IF var_replacement <> var_leftmost_match THEN
        SET var_replaced = REPLACE(var_replaced, var_leftmost_match, var_replacement);
        SET var_leftmost_match = REGEX_CAPTURE_LEFTMOST(var_replaced, var_pattern);
        ELSE
          SET var_leftmost_match = NULL;
        END IF;
      END WHILE;
  RETURN var_replaced;
END $$
DELIMITER ;

DELIMITER $$
CREATE FUNCTION REGEX_CAPTURE_LEFTMOST(
  var_original VARCHAR(1000),
  var_pattern VARCHAR(1000)
  ) RETURNS
    VARCHAR(1000)
  COMMENT '
  Captures the leftmost substring that matches the [var_pattern]
  IN [var_original], OR NULL if no match.
  '
BEGIN
  DECLARE var_temp_l VARCHAR(1000);
  DECLARE var_temp_r VARCHAR(1000);
  DECLARE var_left_trim_index INT;
  DECLARE var_right_trim_index INT;
  SET var_left_trim_index = 1;
  SET var_right_trim_index = 1;
  SET var_temp_l = '';
  SET var_temp_r = '';
  WHILE (CHAR_LENGTH(var_original) >= var_left_trim_index) DO
    SET var_temp_l = LEFT(var_original, var_left_trim_index);
    IF var_temp_l REGEXP var_pattern THEN
      WHILE (CHAR_LENGTH(var_temp_l) >= var_right_trim_index) DO
        SET var_temp_r = RIGHT(var_temp_l, var_right_trim_index);
        IF var_temp_r REGEXP var_pattern THEN
          RETURN var_temp_r;
          END IF;
        SET var_right_trim_index = var_right_trim_index + 1;
        END WHILE;
      END IF;
    SET var_left_trim_index = var_left_trim_index + 1;
    END WHILE;
  RETURN NULL;
END $$
DELIMITER ;

Answer 12

我认为有一个简单的方法可以实现这一目标，并且对我来说很好。

使用REGEX选择行

SELECT * FROM `table_name` WHERE `column_name_to_find` REGEXP 'string-to-find'

使用REGEX更新行

UPDATE `table_name` SET column_name_to_find=REGEXP_REPLACE(column_name_to_find, 'string-to-find', 'string-to-replace') WHERE column_name_to_find REGEXP 'string-to-find'

REGEXP参考： https://www.geeksforgeeks.org/mysql-regular-expressions-regexp/

Answer 13

是的，可以。

UPDATE table_name 
  SET column_name = 'seach_str_name'
  WHERE column_name REGEXP '[^a-zA-Z0-9()_ .\-]';

如何在MySQL中替换正则表达式？

13 个答案: