我正在抓取yahoo
搜索结果,但我得到502 => Net::HTTPBadGateway
。究竟是什么导致了错误?这是否意味着yahoo
检测到我的机器人并禁止我的IP?
答案 0 :(得分:0)
将Response对象打印到控制台(我建议使用awesome_print),
但....它完全是搜索引擎的常规包装形状,油门或阻止爬虫。我不知道雅虎是否这样做,但谷歌肯定会这样做
您可以考虑使用http://commoncrawl.org
答案 1 :(得分:0)
是的,他们正在阻止您的机器人,所有大型搜索引擎都有防御措施,以防止抓取结果页面。但是Google和Bing都提供了一个免费的搜索API,您可以使用它来提供机器人。