绕过Amazon.com的网页抓取限制的最佳方式

时间:2014-04-08 06:09:02

标签: ruby-on-rails-3 heroku amazon web-crawler throttling

我有一个每天运行的流程,可以抓取亚马逊上的电影价格列表。由于亚马逊并未在其产品搜索API中公开所有价格,因此网络抓取是获取ASIN的唯一方法,然后基于ASIN使用其产品搜索API来获取价格。

然而,在几千次网络爬行之后,亚马逊开始限制并抛出一个我无法解析ASIN的capcha页面。

我认为一个好的解决方案就是切换IP来绕过限制。我的服务在Heroku上运行rails,有没有一种实现IP切换的好方法?

1 个答案:

答案 0 :(得分:1)