我如何知道Perl正则表达式的哪一部分与字符串匹配?

时间:2011-07-15 00:18:42

标签: regex perl

我想搜索一个文件的行,看看它们中是否有一个匹配一组正则表达式。

类似的东西:

my @regs = (qr/a/, qr/b/, qr/c/);
foreach my $line (<ARGV>) {
   foreach my $reg (@regs) {
      if ($line =~ /$reg/) {
         printf("matched %s\n", $reg);
      }
   }
}

但这可能很慢。

似乎正则表达式编译器可以提供帮助。有这样的优化:

my $master_reg = join("|", @regs); # this is wrong syntax. what's the right way?
foreach my $line (<ARGV>) {
   $line =~ /$master_reg/;
   my $matched = special_function();
   printf("matched the %sth reg: %s\n", $matched, $regs[$matched]
}

}

其中'special_function'是特殊的酱,告诉我正则表达式的哪一部分匹配。

2 个答案:

答案 0 :(得分:8)

使用捕获括号。基本想法如下:

my @matches = $foo =~ /(one)|(two)|(three)/;
defined $matches[0]
    and print "Matched 'one'\n";
defined $matches[1]
    and print "Matched 'two'\n";
defined $matches[2]
    and print "Matched 'three'\n";

答案 1 :(得分:5)

添加捕获组:

"pear" =~ /(a)|(b)|(c)/;
if (defined $1) {
    print "Matched a\n";
} elsif (defined $2) {
    print "Matched b\n";
} elsif (defined $3) {
    print "Matched c\n";
} else {
    print "No match\n";
}

显然在这个简单的例子中你也可以使用/(a|b|c)/并且只打印$1,但是当'a','b'和'c'可以是任意复杂的表达式时,这是一场胜利。

如果你以编程方式构建正则表达式,你可能会发现必须使用编号变量很痛苦,所以不要破坏严格性,而是查看@-@+数组,其中包含每个比赛位置的偏移量。只要模式匹配,$-[0]始终设置,但如果第$-[$n]个捕获组匹配,则n只会包含定义的值。