基本上,页面会生成一些动态内容,我想获得动态内容,而不仅仅是静态html。我无法用cURL做到这一点。请帮助。
答案 0 :(得分:3)
你不能只用cURL。
cURL将从网站获取特定的原始(静态)文件,但是要获取javascript生成的内容,您必须将该内容放入类似浏览器的环境中,该环境支持javascript和javascript使用的所有其他主机对象脚本可以运行。
然后,一旦脚本运行,您将不得不访问DOM以从中获取您想要的任何内容。
这就是大多数搜索引擎不会为javascript生成的内容编制索引的原因。这不容易。
如果这是您尝试收集信息的一个特定网站,您可能希望确切了解网站如何获取数据,并查看您是否无法直接从该来源获取数据。例如,在页面中嵌入JS的数据(在这种情况下你可以解析那个JS)或者是从ajax调用获得的JS(在这种情况下你可以直接调用ajax调用)或其他一些方法
答案 1 :(得分:0)
你可以尝试http://seleniumhq.org的硒,它支持js。