基于ajax的网站的PHP爬虫?

时间:2011-05-20 10:50:00

标签: php ajax web-crawler

也许这听起来很幼稚,但是对于基于ajax的网站来说,有没有什么东西可以远离一个php爬虫?

3 个答案:

答案 0 :(得分:2)

问题在于,vanilla PHP不了解如何解析JavaScript,生成JavaScript环境以及与所有内容进行交互。为了理论上这样做,您必须通过C API扩展PHP并将其与JavaScript库连接。根据您拥有的资源数量,这个规模非常大。

答案 1 :(得分:2)

不是自动抓取工具,因为他们需要了解javascript代码并需要知道发生了什么。

他们可以做的是使用与启用ajax的脚本相同的调用,这样就可以获得原始数据。

但这意味着您需要对网页有一个非常好的理解,以及它正在调用哪个网址,并且非常耗费人力。

所以答案是:不,据我所知,它们不存在。

答案 2 :(得分:0)

您可以使用phantomjs库来执行js。

https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js