这是情况。我正在使用curl将页面检索到变量中。所以我现在将所有HTML放在一个舒适的变量中。然而,我需要使用代码访问某些DIV注释内容实际上就像这样 - 页面上有一个div节点,其ID为'image',其类似于:
<html>
<body>
..........
<div id="image">
<a href="somelocation">
<img src="location.jpg"/> <!-- I need to grab the src of this image object -->
</a>
</div>
<div> Other stuff blah blah</div>
</body>
</html>
我需要获取图像标记的src属性,该标记嵌套在id“image”的div标记内,该标记隐藏在HTML页面的某个位置。
考虑到我正在使用curl检索此页面,如何执行此服务器。
再次感谢。
答案 0 :(得分:4)
您是否考虑过使用HTML DOM Parser?
这将处理所有解析(甚至是不规则的HTML)以及随后的元素查询。
(我不会使用正则表达式 - HTML不是常规的,不适合正则表达式使用。存在大量边缘情况以绊倒你)