Question

我有一个巨大的HTML代码要扫描。到目前为止，我一直在使用preg_match_all从中提取所需的部分。从一开始的问题是它耗费了极大的CPU时间。我们最终决定使用其他一些方法进行提取。我在一些文章中读到了preg_match可以在性能上与strpos进行比较。他们声称strpos击败正则表达式扫描仪的效率高达20倍。我想我会尝试这种方法，但我真的不知道如何开始。

假设我有这个html字符串：

<li id="ncc-nba-16451" class="che10"><a href="/en/star">23 - Star</a></li>
<li id="ncd-bbt-5674" class="che10"><a href="/en/moon">54 - Moon</a></li>
<li id="ertw-cxda-c6543" class="che10"><a href="/en/sun">34,780 - Sun</a></li>

我想只从每个ID中提取数字，只从a标签的内容中提取文字（字母）。所以我这样做preg_match_all扫描：

'/<li.*?id=".*?([\d]+)".*?<a.*?>.*?([\w]+)<\/a>/s'

在这里你可以看到结果：LINK

现在，如果我想将我的方法替换为strpos功能，那么这种方法会是什么样子？我知道strpos会返回匹配发生的起始索引。但我怎么能用它来：

获取所有可能的匹配，而不只是一个
从字符串

感谢您提供所有帮助和提示;）

Answer 1

此正则表达式使用0回溯找到了24步的匹配

(?:id="[^\d]*(\d*))[^<]*(?:<a href="[^>]*>[^a-z]*([a-z]*))

您发布的正则表达式需要134个步骤。也许你会注意到一个区别？请注意，正则表达式引擎可以进行优化，以最大限度地减少回溯。我使用了RegexBuddy的调试器来获取数字。

Answer 2

使用DOM

$html = '
<html>
<head></head>
<body>
<li id="ncc-nba-16451" class="che10"><a href="/en/star">23 - Star</a></li>
<li id="ncd-bbt-5674" class="che10"><a href="/en/moon">54 - Moon</a></li>
<li id="ertw-cxda-c6543" class="che10"><a href="/en/sun">34,780 - Sun</a></li>
</body>
</html>';


$dom_document = new DOMDocument();

$dom_document->loadHTML($html);

$rootElement = $dom_document->documentElement;

$getId = $rootElement->getElementsByTagName('li');
$res = [];
foreach($getId as $tag)
{
   $data = explode('-',$tag->getAttribute('id'));
   $res['li_id'][] = end($data);
}
$getNode = $rootElement->getElementsByTagName('a');
foreach($getNode as $tag)
{
   $res['a_node'][] = $tag->parentNode->textContent;
}
print_r($res);

输出

Array
(
    [li_id] => Array
        (
            [0] => 16451
            [1] => 5674
            [2] => c6543
        )

    [a_node] => Array
        (
            [0] => 23 - Star
            [1] => 54 - Moon
            [2] => 34,780 - Sun
        )

)

php，strpos从字符串中提取数字

2 个答案: