标签: ruby-on-rails-3 heroku amazon web-crawler throttling
我有一个每天运行的流程,可以抓取亚马逊上的电影价格列表。由于亚马逊并未在其产品搜索API中公开所有价格,因此网络抓取是获取ASIN的唯一方法,然后基于ASIN使用其产品搜索API来获取价格。
然而,在几千次网络爬行之后,亚马逊开始限制并抛出一个我无法解析ASIN的capcha页面。
我认为一个好的解决方案就是切换IP来绕过限制。我的服务在Heroku上运行rails,有没有一种实现IP切换的好方法?
答案 0 :(得分:1)
找到一些代理解决方案:
https://www.ruby-forum.com/topic/510798
Get past request limit in crawling a web site