在过去一年左右的时间里,我创建了许多脚本来从Google Play中抓取Android应用评论。在过去,通过模仿Google Play界面使用必要的参数调用https://play.google.com/store/getreviews并解析HTML结果,这种工作正常。
最近对Google Play界面的更新改变了HTML结构,但似乎也实施了某种防止抓取的保护措施。现在有一个“令牌”参数改变了,大概是某种会话ID,我无法生成,因为我不知道它是什么种子。此外,我发现它似乎阻止请求客户端进行多次不符合接口的呼叫,因为在拨打不成功后我甚至无法在任何浏览器中加载Google Play界面。过了一会儿,这似乎已经过了。不确定,但这是我从我所看到的结论。
有人发现了这个类似的问题,并找到了解决方法吗?
由于
答案 0 :(得分:-2)
尝试一下:www.scrape4me.com
它确实显示错误,但它会超出内容:
http://scrape4me.com/api?url=https%3A%2F%2Fplay.google.com%2Fstore%2Fapps%2Fdetails%3Fid%3Dcom.com2us.golfstarworldtour.normal.freefull.google.global.android.common&elm=&ch=ch