我有一个任意长度的字符串,从位置p0开始,我需要找到三个3字母模式中的第一个出现。
假设字符串仅包含字母。我需要找到从位置p0开始的三元组计数,然后以三元组向前跳,直到第一次出现'aaa'或'bbb'或'ccc'。
这只是使用正则表达式吗?
答案 0 :(得分:12)
$string=~/^ # from the start of the string
(?:.{$p0}) # skip (don't capture) "$p0" occurrences of any character
(?:...)*? # skip 3 characters at a time,
# as few times as possible (non-greedy)
(aaa|bbb|ccc) # capture aaa or bbb or ccc as $1
/x;
(假设p0从0开始)。
当然,在字符串上使用substr来跳过它可能更有效:
substr($string, $p0)=~/^(?:...)*?(aaa|bbb|ccc)/;
答案 1 :(得分:12)
#0123456789.123456789.123456789. my $string = "alsdhfaaasccclaaaagalkfgblkgbklfs"; my $pos = 9; my $length = 3; my $regex = qr/^(aaa|bbb|ccc)/; while( $pos < length $string ) { print "Checking $pos\n"; if( substr( $string, $pos, $length ) =~ /$regex/ ) { print "Found $1 at $pos\n"; last; } $pos += $length; }
答案 2 :(得分:9)
你无法真正依赖正则表达式,但你可以这样做:
pos $string = $start_from;
$string =~ m/\G # anchor to previous pos()
((?:...)*?) # capture everything up to the match
(aaa|bbb|ccc)
/xs or die "No match"
my $result = length($1) / 3;
但我认为使用substr()和unpack()分割成三元组并在for循环中遍历三元组会更快一些。
(编辑:它的长度(),而不是lenght(); - )
答案 3 :(得分:0)
主要部分是split /(...)/。但在结束时,您将获得您的头寸和发生数据。
my @expected_triplets = qw<aaa bbb ccc>;
my $data_string
= 'fjeidoaaaivtrxxcccfznaaauitbbbfzjasdjfncccftjtjqznnjgjaaajeitjgbbblafjan'
;
my $place = 0;
my @triplets = grep { length } split /(...)/, $data_string;
my %occurrence_for = map { $_, [] } @expected_triplets;
foreach my $i ( 0..@triplets ) {
my $triplet = $triplets[$i];
push( @{$occurrence_for{$triplet}}, $i ) if exists $occurrence_for{$triplet};
}
或者通过正则表达式进行简单计数(它使用Experimental(?? {}))
my ( $count, %count );
my $data_string
= 'fjeidoaaaivtrxxcccfznaaauitbbbfzjasdjfncccftjtjqznnjgjaaajeitjgbbblafjan'
;
$data_string =~ m/(aaa|bbb|ccc)(??{ $count++; $count{$^N}++ })/g;
答案 4 :(得分:0)
如果速度是一个严重的问题,你可以通过创建树(例如Aho-Corasick算法或类似算法)来获得真正的幻想。
每种可能状态的映射都是可能的,例如如果没有字符串以'a'开头,则[0] ['a'] = 0。