如何从运行时生成的网页中提取HTML标记

时间:2013-03-03 21:57:06

标签: php html-parsing simple-html-dom

我正在使用SimpleHTMLDOM解析器从网页中提取HTML数据。但我遇到了诸如www.coursera.com之类的网站,其中网页是在运行时生成的。

我需要知道是否有人试过解析这些页面?

我是这个领域的新手,所以关于这个主题的一些理论将有助于我理解解析网页。

2 个答案:

答案 0 :(得分:3)

在这种情况下,它可能更容易(但并非总是如此)。用于生成内容的数据可能是ajax请求的一部分,您可以直接向这些ajax端点发送请求并解析来自端点的响应。

通常这将使用JSON,与HTML相比,它很容易解析。

答案 1 :(得分:1)

John Resig写了一篇HTML Parser。

  

Demo http://ejohn.org/blog/pure-javascript-html-parser/

这可以为你锻炼。