PHP preg_match_all限制

时间:2011-11-25 11:43:07

标签: regex preg-match preg-match-all php

我正在使用preg_match_all非常长的模式。

运行代码时,我收到了这个错误:

  

警告:preg_match_all():编译失败:正常表达式在偏移707830时太大

搜索后,我得到了解决方案,因此我应该在pcre.backtrack_limit

中增加pcre.recursion_limitphp.ini的值

但是在我增加值并重启我的apache之后,它仍然遇到了同样的问题。我的PHP版本是5.3.8

3 个答案:

答案 0 :(得分:12)

该错误不是关于正则表达式的性能,而是关于正则表达式本身。更改pcre.backtrack_limitpcre.recursion_limit不会产生任何影响,因为正则表达式永远不会有机会运行。问题是正则表达式太大了,解决方案是让正则表达式更小 - 更多,更多更小。

答案 1 :(得分:7)

增加PCRE回溯和递归限制可能会解决问题,但是当数据大小达到新限制时仍会失败。 (用更多数据不能很好地扩展)

示例:

<?php 
// essential for huge PCREs
ini_set("pcre.backtrack_limit", "23001337");
ini_set("pcre.recursion_limit", "23001337");
// imagine your PCRE here...
?>

要真正解决底层问题,必须优化表达式并(如果可能)将复杂表达式拆分为“部分”并将一些逻辑移到PHP。我希望你通过阅读这个例子得到这个想法..而不是试图用一个PCRE直接找到子结构,我展示了一种更加“迭代”的方法,使用PHP更深入地进入结构。例如:

<?php
$html = file_get_contents("huge_input.html");

// first find all tables, and work on those later
$res = preg_match_all("!<table.*>(?P<content>.*)</table>!isU", $html, $table_matches);

if ($res) foreach($table_matches['content'] as $table_match) {  

    // now find all cells in each table that was found earlier ..
    $res = preg_match_all("!<td.*>(?P<content>.*)</td>!isU", $table_match, $cell_matches);

    if ($res) foreach($cell_matches['content'] as $cell_match) {

        // imagine going deeper and deeper into the structure here...
        echo "found a table cell! content: ", $cell_match;

    }    
}

答案 2 :(得分:3)

我正在写这个答案,因为我在同一个问题上做了标记。正如Alan Moore所指出的那样,调整回溯和递归限制不会有助于解决问题。

当针头超过最大可能的针头尺寸时会发生所述错误,该针头尺寸受到下面的pcre库的限制。描述的错误是由php引起的 NOT ,而是由底层的pcre库引起的。这是在此定义的错误消息#20:

https://github.com/php/.../pcre_compile.c#L477

php只会在失败时打印从pcre库收到的errortext。

但是,当我尝试使用以前捕获的片段作为针并且它们大于32k字节时,我的环境中会出现此错误。

可以使用php&#c; cli

中的这个简单脚本轻松测试
<?php
// This script demonstrates the above error and dumps an info
// when the needle is too long or with 64k iterations.

$expand=$needle="_^b_";
while( ! preg_match( $needle, "Stack Exchange Demo Text" ) )
{
    // Die after 64 kbytes of accumulated chunk needle
    // Adjust to 32k for a better illustration
    if ( strlen($expand) > 1024*64 ) die();

    if ( $expand == "_^b_" ) $expand = "";
    $expand .= "a";
    $needle = '_^'.$needle.'_ism';

    echo strlen($needle)."\n";

}
?>

要修正错误,必须减少生成的针头 - 或者 - 如果需要捕获所有内容 - 必须使用多个带有偏移参数的preg_match。

<?php
    if ( 
        preg_match( 
            '/'.preg_quote( 
                    substr( $big_chunk, 0, 20*1024 ) // 1st 20k chars
                ) 
                .'.*?'. 
                preg_quote( 
                    substr( $big_chunk, -5 ) // last 5
                ) 
            .'/', 
            $subject 
        ) 
    ) { 
        // do stuff
    }

    // The match all needles in text attempt
    if ( preg_match( 
            $needle_of_1st_32kbytes_chunk, 
            $subj, $matches, $flags = 0, 
            $offset = 32*1024*0 // Offset -> 0
        )
        && preg_match( 
            $needle_of_2nd_32kbytes_chunk, 
            $subj, $matches, $flags = 0, 
            $offset = 32*1024*1 // Offset -> 32k
        )
        // && ... as many preg matches as needed
    ) {
        // do stuff
    }

    // it would be nicer to put the texts in a foreach-loop iterating
    // over the existings chunks 
?>

你明白了。

虽然这个答案有点laaaaate,但我希望它仍能帮助那些遇到这个问题而没有很好解释错误的人。