正则表达式捕获组

时间:2010-12-08 12:42:13

标签: java regex

我的组可以是x / y,x.y或x_y.z形式。每个组由下划线分隔。这些团体是无序的。

示例:

ABC/DEF_abc.def_PQR/STU_ghi_jkl.mno

我想捕获以下内容:

ABC/DEF
abc.def
PQR/STU
ghi_jkl.mno

我使用相当冗长的字符串迭代和解析方法(如下所示)完成了这个,但我想知道一个简单的正则表达式是否可以实现这一点。

private static ArrayList<String> go(String s){
    ArrayList<String> list = new ArrayList<String>();
    boolean inSlash = false;
    int pos = 0 ;
    boolean inDot = false;
    for(int i = 0 ; i < s.length(); i++){
        char c = s.charAt(i);
        switch (c) {
        case '/':
            inSlash = true;
            break;
        case '_':
            if(inSlash){
                list.add(s.substring(pos,i));
                inSlash = false;
                pos = i+1 ;
            }
            else if (inDot){
                list.add(s.substring(pos,i));
                inDot = false;
                pos = i+1;
            }
            break;
        case '.':
            inDot = true;
            break;
        default:
            break;
        }

    }
    list.add(s.substring(pos));
    System.out.println(list);
    return list;
}

4 个答案:

答案 0 :(得分:2)

尝试使用:

((?:[^_./]+/[^_./]+)|(?:[^_./]+\.[^_./]+)|(?:[^_./]+(?:_[^_./]+)+\.[^_./]+))

我不知道java语法,但在Perl:

#!/usr/bin/perl
use 5.10.1;
use strict;
use warnings;

my $str = q!ABC/DEF_abc.def_PQR/STU_ghi_jkl.mno_a_b_c.z_a_b_c_d.z_a_b_c_d_e.z!;
my $re = qr!((?:[^_./]+/[^_./]+)|(?:[^_./]+\.[^_./]+)|(?:[^_./]+(?:_[^_./]+)+\.[^_./]+))!;
while($str=~/$re/g) {
    say $1;
}

将产生:

ABC/DEF
abc.def
PQR/STU
ghi_jkl.mno
a_b_c.z
a_b_c_d.z
a_b_c_d_e.z

答案 1 :(得分:0)

下划线可能有问题,因为它并不总是分隔符。

也许:((?<=_)\w+_)?\w+[./]\.w+

答案 2 :(得分:0)

这个正则表达式可能会(用.Net正则表达式测试):

[a-zA-Z]+[./][a-zA-Z]+|[a-zA-Z]+_[a-zA-Z]+\.[a-zA-Z]+

(如果您知道您的输入格式正确,则无需明确匹配分隔符)

答案 3 :(得分:0)

这个是积极的前瞻而不是替代

[A-Za-z]+(_(?=[A-Za-z]+\.[A-Za-z]+))?[A-Za-z]+[/.][A-Za-z]+