Question

我正试图从文本中获取所有链接及其内容，但我的问题是链接可能还有其他属性，如类或ID。这个模式会是什么？

到目前为止我尝试的是：

/<a href="(.*)">(.*)<\/a\>/

谢谢你，拉杜

Answer 1

正如您对问题的评论所述，请避免使用HTML正则表达式。正确方法是使用DOMDocument

$dom = new DOMDocument;
$dom->load($html);

$xpath = new DOMXPath($dom);
$links = $xpath->query('//*/a');

foreach ($links as $link) {
    /* do something with this */
    $href = $link->getAttribute('href');
    $text = $link->nodeValue;
}

修改

An even better answer on the subject

Answer 2

这应该这样做：

/<a .*?href="(.*?)"[^>]*>([^<]*)<\/a>/i

Read this并查看您是否仍想使用它。

使用preg_match_all从上下文获取链接

2 个答案: