标签: php html regex parsing
当我解析html时,我总是以最直观的方式使用preg_match页面源。我知道有一些解析器可以使用更经济的代码完成工作,例如PHP Simple HTML DOM Parser,但是当我只需要来自源的一些值时,我不确定解析器是否比preg_match更快。
那么,更快地使用解析器还是只是为了让代码看起来更好?假设我们不使用低效的正则表达式来进行preg_match。
答案 0 :(得分:1)
使用regexp解析HTML / XML通常不是一个好主意。 regexp无法处理很多特殊情况 - 标签分为几行,&实体,CDATA和许多其他实体。
真正的解析器(DOM或SAX,如果文本实际上是xml)非常快,可靠性是无法比拟的。