应用错误收集

绕过Amazon.com的网页抓取限制的最佳方式

时间：2014-04-08 06:09:02

标签： ruby-on-rails-3 heroku amazon web-crawler throttling

我有一个每天运行的流程，可以抓取亚马逊上的电影价格列表。由于亚马逊并未在其产品搜索API中公开所有价格，因此网络抓取是获取ASIN的唯一方法，然后基于ASIN使用其产品搜索API来获取价格。

然而，在几千次网络爬行之后，亚马逊开始限制并抛出一个我无法解析ASIN的capcha页面。

我认为一个好的解决方案就是切换IP来绕过限制。我的服务在Heroku上运行rails，有没有一种实现IP切换的好方法？

1 个答案:

答案 0 :(得分：1)

找到一些代理解决方案：

https://www.ruby-forum.com/topic/510798

Get past request limit in crawling a web site