Question

我正在尝试使用Oracle的REGEXP_SUBSTR来选择字符串中的字段。

示例：

this,,,is,,,an,,,example

解决方案：

DECLARE
  field1 VARCHAR2(4000);
  field2 VARCHAR2(4000);
  field3 VARCHAR2(4000);
  field4 VARCHAR2(4000);
  separator VARCHAR2(300) := ',,,';
  lineToParse VARCHAR2(4000) := 'this,,,is,,,an,,,example';
BEGIN
  SELECT REGEXP_SUBSTR(lineToParse, '[^' || separator || ']+', 1, 1) AS part_1, REGEXP_SUBSTR(lineToParse, '[^' || separator || ']+', 1, 2) AS part_2, REGEXP_SUBSTR(lineToParse, '[^' || separator || ']+', 1, 3) AS part_3, REGEXP_SUBSTR(lineToParse, '[^' || separator || ']+', 1, 4) AS part_4
  INTO field1, field2, field3, field4
  FROM DUAL;
  DBMS_OUTPUT.PUT_LINE('Field 1: ' || field1);
  DBMS_OUTPUT.PUT_LINE('Field 2: ' || field2);
  DBMS_OUTPUT.PUT_LINE('Field 3: ' || field3);
  DBMS_OUTPUT.PUT_LINE('Field 4: ' || field4); 
END;

这适用于上面的行，生成：

Field 1: this
Field 2: is
Field 3: an
Field 4: example

但是对于以下行，它不会

this,,,is, a perfectly fine,,,new,,, line

这是因为第二个捕获组应该是：“是，非常好” 但最终成为“是”。

输出是：

Field 1: this
Field 2: is
Field 3:  a perfectly fine
Field 4: new

原因是我正在使用的正则表达式：

[^,,,]+

捕获^后面的任何字符而不是序列。

如何调整我的正则表达式以便捕获整个序列？

这需要与Oracle 11g兼容。

Answer 1

我认为你不能在这里做一个简单的正则表达式。首先，您使用的字符类[^,,,]与[^,]没有任何区别 - 方括号中的重复字符不会影响字符串中的重复字符要匹配。其次，我不认为负面匹配会起作用，因为Oracle正则表达式不支持环视。

您可以尝试以下内容：

SELECT REGEXP_SUBSTR(lineToParse, '.+?($|' || separator || ')', 1, 1) AS part_1
     , REGEXP_SUBSTR(lineToParse, '.+?($|' || separator || ')', 1, 2) AS part_2
     , REGEXP_SUBSTR(lineToParse, '.+?($|' || separator || ')', 1, 3) AS part_3
     , REGEXP_SUBSTR(lineToParse, '.+?($|' || separator || ')', 1, 4) AS part_4
  INTO field1, field2, field3, field4
  FROM DUAL;

这将以非贪婪的方式将所有内容都分配到分隔符或行尾。现在唯一的问题是返回的值可能包括分隔符;有一些方法可以避免这种情况，最简单的方法是使用REPLACE()，但对于Oracle 11，您也可以使用REGEXP_SUBSTR()的子表达式：

SELECT REGEXP_SUBSTR(lineToParse, '(.+?)($|' || separator || ')', 1, 1, 'c', 1) AS part_1
     , REGEXP_SUBSTR(lineToParse, '(.+?)($|' || separator || ')', 1, 2, 'c', 1) AS part_2
     , REGEXP_SUBSTR(lineToParse, '(.+?)($|' || separator || ')', 1, 3, 'c', 1) AS part_3
     , REGEXP_SUBSTR(lineToParse, '(.+?)($|' || separator || ')', 1, 4, 'c', 1) AS part_4
  INTO field1, field2, field3, field4
  FROM DUAL;

但是，如果lineToParse以分隔符开头，那么您仍然需要以某种方式处理它。将REGEXP_SUBSTR()的第一个实例更改为此似乎有效：

REGEXP_SUBSTR(lineToParse, '^(' || separator || ')?(.+?)($|' || separator || ')', 1, 1, 'c', 2) AS part_1

希望这有帮助。

Answer 2

只需将正则表达式调用更改为：

FUNCTION  GET_LIST_ELEMENT(string_in VARCHAR2, element_in NUMBER, delimiter_in VARCHAR2 DEFAULT ',') RETURN VARCHAR2 IS
    BEGIN
      if string_in is null then
        return NULL;
      else
        RETURN REGEXP_SUBSTR(string_in, '(.*?)(\' || delimiter_in || '|$)', 1, element_in, NULL, 1);
      end if;
  END GET_LIST_ELEMENT;

这定义了一组字符，后跟一个由分隔符或行尾组成的组。它匹配该组的第一次出现（第四个参数）并返回第一组（第六个参数）。

奖金！ This regex form handles NULL list elements too, where the form '[^,]' does not!

更好的是，构建一个可以放入实用程序包中以供重用的函数，该函数封装了此功能并调用它。这样，不熟悉正则表达式的人可以使用它，如果需要进行更改，您只需要在一个地方更改正则表达式代码：

util.get_list_element(lineToParse, 1, separator) AS part_1, 
util.get_list_element(lineToParse, 2, separator) AS part_2, 
util.get_list_element(lineToParse, 3, separator) AS part_3, 
util.get_list_element(lineToParse, 4, separator) AS part_4

然后你的代码看起来像这样：

{{1}}

通过Oracle的REGEXP_SUBSTR排除正则表达式中的一系列字符

2 个答案: