如何从字符串的开头开始使用正则表达式

时间:2011-01-03 19:20:54

标签: regex perl

这是我遇到的一个古怪的问题(可能以前见过但从未注意过)。

以下是代码的要点:

my $url = 'http://twitter.com/' . $handle;
my $page = get($url);

if($page =~ m/Web<\/span>\s*<a href=\"(.+?)\"/gi) {
    $website = $1;
}

if($page =~ m/follower_count\" class=\"stats_count numeric\">(.+?)\s*</g) {
    $num_followers = $1;
}

它获得了一个Twitter网址,并使用一些正则表达式来捕获关注者和用户的网站。这段代码实际上运行正常。但是当您在搜索关注者之后切换订单并搜索网站时,网站会显示空白。事实证明,当你正则表达一个字符串时,似乎有点保存最后一个匹配的位置。在html中,网站显示后会显示关注者数量。如果你首先执行跟随者计数正则表达式,就像它启动网站正则表达式,其中跟随者计数停止(就像对字符串的索引引用)。

令我感到困惑的是,我最后有“g”运算符,表示“全局”,如“从全局搜索字符串......”。

我在这里遗漏了什么吗?我似乎无法弄清楚为什么它恢复字符串上的最后一个正则表达式位置(如果这是有道理的)。

4 个答案:

答案 0 :(得分:12)

标量上下文中的/g修饰符不会按照您的想法执行。摆脱它。

正如perlretut所解释的那样,标量上下文中的/g依次循环每个匹配。它设计用于循环,如下所示:

while ($str =~ /pattern/g) {
    # match on each occurence of 'pattern' in $str in turn
}

使用/g的另一种方法是在列表上下文中:

my @results = $str =~ /pattern/g; # collect each occurence of 'pattern' within $str into @results

如果你在标量上下文中使用/g并且你没有迭代它,你几乎肯定没有正确使用它。

答案 1 :(得分:5)

引用perlop on Regexp Quote Like Operators

  

在标量上下文中,m//g的每次执行都会找到下一个匹配项,如果匹配则返回true,如果没有进一步匹配则返回false。可以使用pos()函数读取或设置最后一次匹配后的位置;见pos。失败的匹配通常会将搜索位置重置为字符串的开头,但您可以通过添加/c修饰符(例如m//gc)来避免这种情况。修改目标字符串也会重置搜索位置。

因此,在标量上下文(您正在使用)中,/g并不意味着“从头开始搜索”,它意味着“从字符串的pos开始搜索”。 “从头开始搜索”是默认值(不含/g)。

/g通常用于想要在字符串中找到正则表达式的所有匹配项,而不仅仅是第一次匹配项。在列表上下文中,它通过返回所有匹配的列表来实现。在标量上下文中,它通过从上一次搜索停止的位置开始搜索(通常在循环中完成)。

答案 2 :(得分:3)

它的要点是用/ g完成的匹配保存了最后一个匹配的位置,以便下次匹配该字符串时,正则表达式将从那里开始。在标量上下文中,通常这样做是为了在while循环中获得多个连续匹配;在列表上下文中,/ g返回所有匹配(但不重叠)的结果。您可以在perlretut,全局匹配下以及perlop下的Regexp-Quote-Like-Operators下了解更多相关信息。

您可以使用pos功能查看当前位置。您还可以使用pos作为左值来设置位置:pos($string) = 0;会将位置重置为字符串的开头。

在循环之外的标量上下文中使用/ g的理由不多,因为使用\ G断言可以获得完全相同的功能。

..当然,然后没有人记得\ G是如何工作的,你回到了第一个方面,但这是另一个话题。

答案 3 :(得分:0)

m // g不会重置位置。您需要手动执行此操作。请参阅此参考: http://perldoc.perl.org/functions/pos.html

我相信你只需将pos设置为0或undef即可。