如何使用cURL从其他网站获取javascript生成的内容?

时间:2013-06-12 22:28:47

标签: php javascript dynamic curl

基本上,页面会生成一些动态内容,我想获得动态内容,而不仅仅是静态html。我无法用cURL做到这一点。请帮助。

2 个答案:

答案 0 :(得分:3)

你不能只用cURL。

cURL将从网站获取特定的原始(静态)文件,但是要获取javascript生成的内容,您必须将该内容放入类似浏览器的环境中,该环境支持javascript和javascript使用的所有其他主机对象脚本可以运行。

然后,一旦脚本运行,您将不得不访问DOM以从中获取您想要的任何内容。

这就是大多数搜索引擎不会为javascript生成的内容编制索引的原因。这不容易。


如果这是您尝试收集信息的一个特定网站,您可能希望确切了解网站如何获取数据,并查看您是否无法直接从该来源获取数据。例如,在页面中嵌入JS的数据(在这种情况下你可以解析那个JS)或者是从ajax调用获得的JS(在这种情况下你可以直接调用ajax调用)或其他一些方法

答案 1 :(得分:0)

你可以尝试http://seleniumhq.org的硒,它支持js。