Google抓取503服务不可用

时间:2015-06-03 08:38:16

标签: python curl web-crawler wget

当我在服务器上使用wget,curl或python抓取谷歌搜索引擎时,我遇到了一个非常奇怪的问题。 Google将我重定向到以 [ipv4 | ipv6] .google.fr / sorry / IndexRedirect ... 开头的地址,最后发送503错误,服务不可用...

有时抓取工作正常,有时不在白天,我几乎尝试了一切:强制ipv4 / ipv6而不是hostname,referer,user agent,vpn,.com / .fr /,proxies和tor,...

我猜这是来自Google服务器的错误......任何想法?谢谢!

wget "http://google.fr/search?q=test"
--2015-06-03 10:19:52--  http://google.fr/search?q=test
Resolving google.fr (google.fr)... 2a00:1450:400c:c05::5e, 173.194.67.94
Connecting to google.fr (google.fr)|2a00:1450:400c:c05::5e|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0 [following]
--2015-06-03 10:19:53--  http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0
Resolving ipv6.google.com (ipv6.google.com)... 2a00:1450:400c:c05::64
Connecting to ipv6.google.com (ipv6.google.com)|2a00:1450:400c:c05::64|:80... connected.
HTTP request sent, awaiting response... 503 Service Unavailable
2015-06-03 10:19:53 ERROR 503: Service Unavailable.

1 个答案:

答案 0 :(得分:3)

谷歌有触发器来嗅出机器人和其他滥用他们的服务条款的行为,因此他们对同一个i.p.的通话数量设定了限制(或者#34;油门")。地址可以在一段时间内完成。我相信它每分钟就有10个电话。一个很好的例子:如果你的网址因503错误而被粘贴到浏览器中,那么你将获得Google的Captcha挑战,以证明你不是机器人。

我正在使用pattern.web模块做与您正在做的基本相同的事情(当然是为了无害的研究目的!),该库的文档显示了大多数流行API的限制限制(Google ,Bing,Twitter,Facebook ......)。

尝试每15秒左右发送一次请求,以避免踩油门限制。