应用错误收集

从命令行执行HTML Javascript

时间：2012-05-20 08:34:14

标签： javascript jquery html web-scraping

我有许多网页，我试图解析使用curl获得的信息。每个页面都使用JQuery将其内容转换为在浏览器中加载的文档（使用document.ready函数） - 主要是设置div的类/ ID。加载Javascript函数后，信息更容易解析。

我（从命令行）执行页面的Javascript内容并转储转换后的HTML有哪些选择？

1 个答案:

答案 0 :(得分：2)

要抓取动态网页，请不要使用像curl这样的静态下载工具。

如果您想要使用无头网络浏览器来抓取动态网页，您可以使用编程语言进行控制。最受欢迎的工具是Selenium

http://code.google.com/p/selenium/

使用Selenium，您可以将修改后的DOM树从浏览器导出为HTML。

示例用例：

https://stackoverflow.com/a/10053589/315168