当我在服务器上使用wget,curl或python抓取谷歌搜索引擎时,我遇到了一个非常奇怪的问题。 Google将我重定向到以 [ipv4 | ipv6] .google.fr / sorry / IndexRedirect ... 开头的地址,最后发送503错误,服务不可用...
有时抓取工作正常,有时不在白天,我几乎尝试了一切:强制ipv4 / ipv6而不是hostname,referer,user agent,vpn,.com / .fr /,proxies和tor,...
我猜这是来自Google服务器的错误......任何想法?谢谢!
wget "http://google.fr/search?q=test"
--2015-06-03 10:19:52-- http://google.fr/search?q=test
Resolving google.fr (google.fr)... 2a00:1450:400c:c05::5e, 173.194.67.94
Connecting to google.fr (google.fr)|2a00:1450:400c:c05::5e|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0 [following]
--2015-06-03 10:19:53-- http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0
Resolving ipv6.google.com (ipv6.google.com)... 2a00:1450:400c:c05::64
Connecting to ipv6.google.com (ipv6.google.com)|2a00:1450:400c:c05::64|:80... connected.
HTTP request sent, awaiting response... 503 Service Unavailable
2015-06-03 10:19:53 ERROR 503: Service Unavailable.
答案 0 :(得分:3)
我正在使用pattern.web模块做与您正在做的基本相同的事情(当然是为了无害的研究目的!),该库的文档显示了大多数流行API的限制限制(Google ,Bing,Twitter,Facebook ......)。
尝试每15秒左右发送一次请求,以避免踩油门限制。