我试图制作爬虫,我怎样才能获得一些标签并获得内部标签的访问权限?

时间:2012-12-31 13:32:39

标签: php html xml function web-crawler

首先对不起因为很难解释我想做什么。

我正在使用php创建一个爬虫并使用函数getElementsByTag()来获取我想要的一些标签,例如我想从网站上获取一些img但不按类分类,所以我无法过滤。代码是下一个:

<div class="separator" style="clear: both; text-align: center;">
<a href="www.xxx.com" target="_blank"><img alt="Athletic de Bilbao" border="0" src="http://2.bp.blogspot.com/-2UBftyhYArw/T0v9vguvZuI/AAAAAAAAA9s/vLQ8GSo6v5A/s1600/athletic.png" title="Athletic de Bilbao" /></a></div>
<img border="0" src="www.xxx.com/TOl2NhAAFBI/AAAAAAAAAJk/KxHrumDQ48M/s1600/down.gif" /> <b style="color: red;">Bajas</b> <br />
<ul>

我认为我得到的一个机会就是取标签div(分隔符),然后使用任何函数访问里面的图片标签,但我不知道是否可以使用任何功能?

1 个答案:

答案 0 :(得分:1)

您可以将其写为 Xpath表达式,例如获取所有此类图像的列表:

//div[@class="separator"]/img

您可以使用DOMXPath在PHP中运行xpath表达式。

DOMDocument::getElementsByTagName()一样,DOMXPath::query()也会返回DOMNodeList