我有一个关于分析HTML页面的问题。例如,有一个页面,www.example.com / page.html包含我需要的表格中的信息,而www.example.com/page2.html有一些其他信息,但是采用文本格式。目前,我正在使用正则表达式(preg_match_all),其中我必须插入一个手工制作的图案。是否有更快/更好的方法来做到这一点。因此,完整的问题是:是否有一种快速/好的方法从HTML页面中提取信息,而不需要我通过正则表达式使用和编辑部分源代码?
(其他信息:我使用PHP i.c.w.cURL获取页面内容,然后使用preg_match_all提取数据)
答案 0 :(得分:4)
是的!您可以将网页内容加载到PHP DOMDocument中,并使用html类和ID获取数据,就像使用Javascript一样。
以下是文档http://www.php.net/manual/en/class.domdocument.php
您应该从使用
开始DOMDocument::loadHTML($html);
然后按照文档及其示例
进行操作答案 1 :(得分:2)
使用this post中建议的任何解析器。你永远不应该使用正则表达式来解析html。
答案 2 :(得分:1)
您可以使用dom。