分析HTML页面

时间:2011-04-20 18:37:45

标签: php html regex curl extraction

我有一个关于分析HTML页面的问题。例如,有一个页面,www.example.com / page.html包含我需要的表格中的信息,而www.example.com/page2.html有一些其他信息,但是采用文本格式。目前,我正在使用正则表达式(preg_match_all),其中我必须插入一个手工制作的图案。是否有更快/更好的方法来做到这一点。因此,完整的问题是:是否有一种快速/好的方法从HTML页面中提取信息,而不需要我通过正则表达式使用和编辑部分源代码?

(其他信息:我使用PHP i.c.w.cURL获取页面内容,然后使用preg_match_all提取数据)

3 个答案:

答案 0 :(得分:4)

是的!您可以将网页内容加载到PHP DOMDocument中,并使用html类和ID获取数据,就像使用Javascript一样。

以下是文档http://www.php.net/manual/en/class.domdocument.php

您应该从使用

开始
DOMDocument::loadHTML($html);

然后按照文档及其示例

进行操作

答案 1 :(得分:2)

使用this post中建议的任何解析器。你永远不应该使用正则表达式来解析html。

答案 2 :(得分:1)

您可以使用dom