抓取由ajax加载的内容

时间:2012-08-11 13:08:54

标签: java javascript ajax web-crawler

现在很多网站都包含一些由ajax加载的内容(例如某些视频网站中的评论)。通常我们无法抓取这些数据,我们得到的只是一些js源代码。所以问题是:在我们获得html响应并进入我们想要的最终页面之后,我们可以在哪些方面执行javascript代码?

我知道HtmlUnit能够执行后台js,但是有很多错误和错误。还有其他工具可以帮助我吗?

有些人告诉我,我可以抓取ajax请求网址,分析其参数并再次发送请求以获取数据。如果根据我上面提到的方式无法解决问题,有人可以告诉我如何提取ajax网址并以正确的格式发送请求吗?

顺便说一句,如果语言是java,那将是最好的

2 个答案:

答案 0 :(得分:0)

是的,Netwoof可以轻松抓取Ajax。它的API和bot构建器允许您在没有一行代码的情况下完成它。

答案 1 :(得分:0)

关于HTTP的好处,你甚至不需要java。我调试AJAX的goto工具是chrome扩展Postman。我首先查看chrome调试器中的请求并确定显着位(url或form encoding params等)

然后就可以像打开一个标签一样简单,并使用Postman在服务器上启动请求。只要它在同一个浏览器环境中,所有的cookie(用于身份验证等)也将被运送。