如何在字符串中搜索正则表达式模式的重叠匹配

时间:2015-11-14 21:27:22

标签: arrays regex string perl

我有这个字符串

my $line = "MZEFSRGGRMEAZFE*MQZEFFMAEZF*"

我希望找到以M开头并以*开头的每个子字符串,并将其添加到数组中。这意味着上面的字符串会在我的数组中给出6个元素。

我有这段代码

foreach ( $line =~ m/M.*?\*/g ) {
    push @ORF, $_;
}

但它只给了我数组中的两个元素,因为它忽略了重叠的字符串。

有没有办法获得所有比赛?我试过谷歌搜索但找不到答案。

2 个答案:

答案 0 :(得分:4)

可以使用code within reBacktracking control verbs来获得一点魔力:

#!/usr/bin/env perl

use strict;
use warnings;

my $line = "MZEFSRGGRMEAZFE*MQZEFFMAEZF*";

local our @match;

$line =~ m/(M.*\*)(?{ push @match, $1 })(*FAIL)/;

use Data::Dump;

dd @match;

输出:

(
  "MZEFSRGGRMEAZFE*MQZEFFMAEZF*",
  "MZEFSRGGRMEAZFE*",
  "MEAZFE*MQZEFFMAEZF*",
  "MEAZFE*",
  "MQZEFFMAEZF*",
  "MAEZF*",
)

答案 1 :(得分:1)

我不相信可以创建一个匹配所有这些子串的单一正则表达式模式,因为你同时要求两者一个贪婪和非贪婪的匹配,

之间的其他一切

我建议您存储这些子串的所有可能的开始和结束位置,并使用双循环将所有起始位置与所有结束位置组合

该程序演示

use strict;
use warnings 'all';
use feature 'say';

my $line = 'MZEFSRGGRMEAZFE*MQZEFFMAEZF*';

my @orf;

{
    my (@s, @e);
    push @s, $-[0] while $line =~/M/g;
    push @e, $+[0] while $line =~/\*/g;

    for my $s ( @s ) {
        for my $e ( @e ) {
            push @orf, substr $line, $s, $e-$s if $e > $s;
        }
    }
}

say for @orf;

输出

MZEFSRGGRMEAZFE*
MZEFSRGGRMEAZFE*MQZEFFMAEZF*
MEAZFE*
MEAZFE*MQZEFFMAEZF*
MQZEFFMAEZF*
MAEZF*