无法在AWS上以编程方式从https://play.google.com/store/apps/获取网页内容

时间:2016-04-21 13:48:18

标签: google-play web-crawler blocking

我在AWS EC2上运行了一个Java应用程序,用于从https://play.google.com/store/apps/抓取应用信息 一切都运行良好,直到今天。 似乎谷歌已经开始阻止服务器因为经常点击。 我尝试从另一台服务器运行正常,几小时后也被阻止了

这是我的代码:

Document doc = Jsoup.connect("https://play.google.com/store/apps/details?id=" +appId).timeout(10000).get();

我在doc中获取所有页面内容并进行解析。

我该怎么办才能获得访问权?

先谢谢

1 个答案:

答案 0 :(得分:0)

你被谷歌扼杀了。他们这样做是为了阻止抓取工具和机器人,所以你必须限制你对谷歌的电话(或联系他们与他们合作,但我怀疑你想这样做)