我怎样才能解析php中的html元素?

时间:2015-02-11 22:17:07

标签: php dom html-parsing

我需要从php中的html文件中获取几个html元素的内容。
要素是:

  • title
  • 元关键字
  • 元描述
  • H1


你有两次,三次,......的标题,在页面上,我需要所有出现=> $ array_of_titles
其他标签也一样。
我需要收集这些数据以检查页面上的标签的重复性
我试过这个:

  • DOMDOCUMENT + DOMXPATH =>仅适用于格式良好的html =>在现实世界中无法使用的mof * s太多,无法编写有效的html
  • 简单的Html DOM解析器 - 这个库充满了错误

我该怎么办?它看起来真的很琐碎但是......

1 个答案:

答案 0 :(得分:1)

我知道有几个解析器可以使用无效的HTML:

  1. PHP Simple HTML DOM
  2. Ganon
  3. 正如其他人所说,正则表达式绝对不是不是的方式。保存你的头发和你的理智,不要走那条路。