我正在寻找一个爬虫应用程序,它扫描页面的javascript以获取AJAX请求,并查找执行AJAX调用的函数,从而从头到尾获取整个内容。
我会自己写点东西,但我现在真的忙于工作,想到也许某人已经成了这样的爬虫。
有吗?
答案 0 :(得分:1)
没有你要求的东西,因为它对于一个特定的站点来说太具体了 - 爬虫没有通用的方法来生成ajax生成的内容。
如果网站愿意合作,Google已经实施了一些约定,以使ajax生成的网页可以抓取。你可以在这里阅读它们:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=174992