在PHP中解析html的有效方法?

时间:2016-01-12 07:30:49

标签: php html regex parsing

当我解析html时,我总是以最直观的方式使用preg_match页面源。我知道有一些解析器可以使用更经济的代码完成工作,例如PHP Simple HTML DOM Parser,但是当我只需要来自源的一些值时,我不确定解析器是否比preg_match更快。

那么,更快地使用解析器还是只是为了让代码看起来更好?假设我们不使用低效的正则表达式来进行preg_match。

1 个答案:

答案 0 :(得分:1)

使用regexp解析HTML / XML通常不是一个好主意。 regexp无法处理很多特殊情况 - 标签分为几行,&实体,CDATA和许多其他实体。

真正的解析器(DOMSAX,如果文本实际上是xml)非常快,可靠性是无法比拟的。