我有许多网页,我试图解析使用curl获得的信息。每个页面都使用JQuery将其内容转换为在浏览器中加载的文档(使用document.ready函数) - 主要是设置div的类/ ID。加载Javascript函数后,信息更容易解析。
我(从命令行)执行页面的Javascript内容并转储转换后的HTML有哪些选择?
答案 0 :(得分:2)
要抓取动态网页,请不要使用像curl这样的静态下载工具。
如果您想要使用无头网络浏览器来抓取动态网页,您可以使用编程语言进行控制。最受欢迎的工具是Selenium
http://code.google.com/p/selenium/
使用Selenium,您可以将修改后的DOM树从浏览器导出为HTML。
示例用例: