阻止了关于craigslist的HTTP GET

时间:2013-01-14 23:54:54

标签: ruby-on-rails amazon-ec2 craigslist

我正在尝试在craigslist sfbay.craigslist.org上进行HTTP GET。这是我的(ruby)代码,非常简单

require 'net/http'
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org'))

我最终收到错误“此IP已被自动阻止。”

仅当我从Amazon EC2或heroku上尝试此操作时才会发生此行为。当我在我自己的计算机localhost上再次尝试时,我得到了正确的结果。这与Amazon EC2有关吗?

我想知道其他人是否有同样的问题。如何从EC2访问craigslist?

1 个答案:

答案 0 :(得分:8)

我可以确认Craigslist是通过IP(而不是用户代理)阻止主要的Amazon EC2 IP范围。它适用于其他地方,但我怀疑任何音量都会导致其他IP被阻止。

您可以使用tor徘徊。更重要的是,this stackoverflow question discusses data sources used by craigslist mashups

我甚至测试了巴西EC2,假设他们可能没有阻止所有CIDR。没有bueno。