也许这听起来很幼稚,但是对于基于ajax的网站来说,有没有什么东西可以远离一个php爬虫?
答案 0 :(得分:2)
问题在于,vanilla PHP不了解如何解析JavaScript,生成JavaScript环境以及与所有内容进行交互。为了理论上这样做,您必须通过C API扩展PHP并将其与JavaScript库连接。根据您拥有的资源数量,这个规模非常大。
答案 1 :(得分:2)
不是自动抓取工具,因为他们需要了解javascript代码并需要知道发生了什么。
他们可以做的是使用与启用ajax的脚本相同的调用,这样就可以获得原始数据。
但这意味着您需要对网页有一个非常好的理解,以及它正在调用哪个网址,并且非常耗费人力。
所以答案是:不,据我所知,它们不存在。
答案 2 :(得分:0)
您可以使用phantomjs库来执行js。
https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js