Question

我有一个关于分析HTML页面的问题。例如，有一个页面，www.example.com / page.html包含我需要的表格中的信息，而www.example.com/page2.html有一些其他信息，但是采用文本格式。目前，我正在使用正则表达式（preg_match_all），其中我必须插入一个手工制作的图案。是否有更快/更好的方法来做到这一点。因此，完整的问题是：是否有一种快速/好的方法从HTML页面中提取信息，而不需要我通过正则表达式使用和编辑部分源代码？

（其他信息：我使用PHP i.c.w.cURL获取页面内容，然后使用preg_match_all提取数据）

Answer 1

是的！您可以将网页内容加载到PHP DOMDocument中，并使用html类和ID获取数据，就像使用Javascript一样。

以下是文档http://www.php.net/manual/en/class.domdocument.php

您应该从使用

开始

DOMDocument::loadHTML($html);

然后按照文档及其示例

进行操作

Answer 2

使用this post中建议的任何解析器。你永远不应该使用正则表达式来解析html。

Answer 3

您可以使用dom。

分析HTML页面

3 个答案: