以编程方式搜索雅虎

时间:2012-08-02 08:33:57

标签: ruby web-scraping

我正在抓取yahoo搜索结果,但我得到502 => Net::HTTPBadGateway。究竟是什么导致了错误?这是否意味着yahoo检测到我的机器人并禁止我的IP?

2 个答案:

答案 0 :(得分:0)

将Response对象打印到控制台(我建议使用awesome_print),

但....它完全是搜索引擎的常规包装形状,油门或阻止爬虫。我不知道雅虎是否这样做,但谷歌肯定会这样做

您可以考虑使用http://commoncrawl.org

答案 1 :(得分:0)

是的,他们正在阻止您的机器人,所有大型搜索引擎都有防御措施,以防止抓取结果页面。但是Google和Bing都提供了一个免费的搜索API,您可以使用它来提供机器人。