Question

嗨，我只是试图获得正常表达式的悬念，我试图从这个网站中提取内容，但我认为我的regexp有问题，因为我无法向数组中添加任何内容。任何人都可以指出我正确的方向，我认为它只是一些小的。

由于

<?php   
    $f1 = fopen("http://www.irishexaminer.com/","r");
    $document = fread($f1,100000);
    fclose($f1);
    $regexp = "%<p>(.+)</p><p>%";
    preg_match($regexp,$document,$getHeading);  
    echo "<br>" . $getHeading[1];
    echo '<pre>';
    print_r($getHeading);
    echo '</pre>';
?>

Answer 1

在你的情况下，p的结束标记中没有任何借口可以使用空格。

<p> THERE is no excuse for loyalist violence on the streets of Belfast.<p /><p>

正则表达式匹配

%<p>(.+)</\s*p><p>%

为HTML制作一个足够有弹性的正则表达式需要一段时间。接受Frankies的建议。将你的努力归功于不太容易失败的事情。您可以使用PHP HTML Tidy

使用正则表达式从网站中提取内容

1 个答案: