解析HTML源以提取锚点和链接标记href值

时间:2011-03-22 20:37:37

标签: php html-parsing

我正在寻找PHP中的一些HTML Parser,它可以帮助我从html源中提取href values

我看了phpQuery并且它是最好的,但它对我的需求来说太过分了,并且消耗了很多CPU来做我不需要的额外的东西。

我也检查了

  

$ dom = new DomDocument();
  $ dom-> loadHTML($ HTML);

但解析HTML5标签时遇到问题。

有没有更好的library/class或方法呢?

3 个答案:

答案 0 :(得分:0)

好吧,您可以使用正则表达式来提取数据:

$html = "This is some stuff right here. <a href='index.html'>Check this out!</a> <a href=herp.html>And this is another thing!</a> <a href=\"derp.html\">OH MY GOSH</a>";
preg_match_all('/href=[\'"]?([^\s\>\'"]*)[\'"\>]/', $html, $matches);
$hrefs = ($matches[1] ? $matches[1] : false);
print_r($hrefs);

答案 1 :(得分:0)

simplehtmldom是一个方便的PHP HTML解析类

http://simplehtmldom.sourceforge.net/

答案 2 :(得分:0)

我用过 - -

$html = '<a href="http://google.com"><img src="images/a.png" /></a>';
preg_match('/href="([^\s"]+)/', $html, $match);
echo '<pre>';
print_r($match);