RegEx在字符串(分号;)上分割字符串,但字符串中出现的字符串除外

时间:2011-09-15 11:41:06

标签: java regex string stringtokenizer

我有一个Java String,它实际上是一个SQL脚本。

CREATE OR REPLACE PROCEDURE Proc
   AS
        b NUMBER:=3;
        c VARCHAR2(2000);
    begin
        c := 'BEGIN ' || ' :1 := :1 + :2; ' || 'END;';
   end Proc;

我想在分号上拆分脚本,除了那些出现在字符串中的脚本。 所需的输出是四个不同的字符串,如下所述

1- CREATE OR REPLACE PROCEDURE Proc AS b NUMBER:=3
2- c VARCHAR2(2000)
3- begin c := 'BEGIN ' || ' :1 := :1 + :2; ' || 'END;';
4- end Proc

Java Split()方法也会将字符串上面的字符串拆分为标记。我希望保留这个字符串,因为分号是在引号内。

c := 'BEGIN ' || ' :1 := :1 + :2; ' || 'END;';

Java Split()方法输出

1- c := 'BEGIN ' || ' :1 := :1 + :2
2- ' || 'END
3- '

请建议一个RegEx,它可以将字符串拆分为分号,但字符串中的字符串除外。

===================== CASE-2 ==================== ====

以上部分已得到解答及其正常工作

这是另一个更复杂的案例

============================================ ==========

我有一个SQL脚本,我想标记每个SQL查询。每个SQL查询由分号(;)或正斜杠(/)分隔。

1-如果它们出现在像

这样的字符串中,我想要转义半冒号或/符号
...WHERE col1 = 'some ; name/' ..

2- Expression还必须转义任何多行注释语法,即/ *

这是输入

/*Query 1*/
SELECT
*
FROM  tab t
WHERE (t.col1 in (1, 3)
            and t.col2 IN (1,5,8,9,10,11,20,21,
                                     22,23,24,/*Reaffirmed*/
                                     25,26,27,28,29,30,
                                     35,/*carnival*/
                                     75,76,77,78,79,
                                     80,81,82, /*Damark accounts*/
                                     84,85,87,88,90))
;
/*Query 2*/    
select * from table
/
/*Query 3*/
select col form tab2
;
/*Query 4*/
select col2 from tab3 /*this is a multi line comment*/
/

期望的结果

[1]: /*Query 1*/
    SELECT
    *
    FROM  tab t
    WHERE (t.col1 in (1, 3)
                and t.col2 IN (1,5,8,9,10,11,20,21,
                                         22,23,24,/*Reaffirmed*/
                                         25,26,27,28,29,30,
                                         35,/*carnival*/
                                         75,76,77,78,79,
                                         80,81,82, /*Damark accounts*/
                                         84,85,87,88,90))

[2]:/*Query 2*/    
    select * from table

[3]: /*Query 3*/
    select col form tab2

[4]:/*Query 4*/
    select col2 from tab3 /*this is a multi line comment*/

其中一半已经可以通过前一篇文章(链接开始)中的建议实现,但是当将注释语法(/ *)引入查询时,每个查询也可以通过正斜杠分隔(/ ),表达不起作用。

3 个答案:

答案 0 :(得分:4)

正则表达式模式((?:(?:'[^']*')|[^;])*);应该可以满足您的需求。使用while循环和Matcher.find()来提取所有SQL语句。类似的东西:

Pattern p = Pattern.compile("((?:(?:'[^']*')|[^;])*);";);
Matcher m = p.matcher(s);
int cnt = 0;
while (m.find()) {
    System.out.println(++cnt + ": " + m.group(1));
}

使用您提供的示例SQL,将输出:

1: CREATE OR REPLACE PROCEDURE Proc
   AS
        b NUMBER:=3
2: 
        c VARCHAR2(2000)
3: 
    begin
        c := 'BEGIN ' || ' :1 := :1 + :2; ' || 'END;'
4: 
   end Proc

如果您希望终止;,请使用m.group(0)代替m.group(1)

有关正则表达式的更多信息,请参阅Pattern JavaDoc和this great reference。以下是该模式的概要:

(              Start capturing group
  (?:          Start non-capturing group
    (?:        Start non-capturing group
      '        Match the literal character '
      [^']     Match a single character that is not '
      *        Greedily match the previous atom zero or more times
      '        Match the literal character '
    )          End non-capturing group
    |          Match either the previous or the next atom
    [^;]       Match a single character that is not ;
  )            End non-capturing group
  *            Greedily match the previous atom zero or more times
)              End capturing group
;              Match the literal character ;

答案 1 :(得分:0)

你可能尝试的只是分裂“;”。然后对于每个字符串,如果它具有奇数个's',则将它与下面的字符串连接起来,直到它有一个偶数个将“;”添加回来。

答案 2 :(得分:0)

我遇到了同样的问题。我看到了之前的建议,并决定改善处理:

  • 评论
  • 转步单引号
  • 单个查询未以分号结束

我的解决方案是为java编写的。反斜杠消息和DOTALL模式可能会从一种语言变为另一种语言。

这对我有用"(?s)\s*((?:'(?:\\.|[^\\']|''|)'|/\.*?\*/|(?:--|#)[^\r\n]|[^\\'])?)(?:;|$)"

"
(?s)                 DOTALL mode. Means the dot includes \r\n
\\s*                 Initial whitespace
(
    (?:              Grouping content of a valid query
        '            Open string literal
        (?:          Grouping content of a string literal expression
            \\\\.    Any escaped character. Doesn't matter if it's a single quote
        |
            [^\\\\'] Any character which isn't escaped. Escaping is covered above.
        |
            ''       Escaped single quote
        )            Any of these regexps are valid in a string literal.
        *            The string can be empty 
        '            Close string literal
    |
        /\\*         C-style comment start
        .*?          Any characters, but as few as possible (doesn't include */)
        \\*/         C-style comment end
    |
        (?:--|#)     SQL comment start
        [^\r\n]*     One line comment which ends with a newline
    |
        [^\\\\']     Anything which doesn't have to do with a string literal
    )                Theses four tokens basically define the contents of a query
    *?               Avoid greediness of above tokens to match the end of a query
)
(?:;|$)              After a series of query tokens, find ; or EOT
"

至于你的第二个案例,请注意正则表达式的最后一部分表示你的正则表达式将如何结束。现在它只接受分号文本结尾。但是,您可以在结尾添加任何内容。例如,(?:;|@|/|$)接受斜杠作为结束字符。没有为你测试过这个解决方案,但不应该很难。