我刚开始使用urllib
模块。我正在尝试从超级市场抓取产品,并且有一个网站似乎总是{strong>总是回复HTTP Error 429: Too many requests
。我已经对堆栈溢出进行了一些研究,似乎没有人遇到相同的问题。我的代码非常简单:
>>> import urllib.request
>>> resp = urllib.request.urlopen("https://shop.coles.com.au/a/a-national/product/head-shoulders-shampoo-conditioner-2in1-deep-clean")
Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
resp = urllib.request.urlopen("https://shop.coles.com.au/a/a-national/product/head-shoulders-shampoo-conditioner-2in1-deep-clean")
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 222, in urlopen
return opener.open(url, data, timeout)
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 531, in open
response = meth(req, response)
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 640, in http_response
'http', request, response, code, msg, hdrs)
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 568, in error
return self._call_chain(*args)
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 503, in _call_chain
result = func(*args)
File "C:\Users\thank\AppData\Local\Programs\Python\Python37\lib\urllib\request.py", line 648, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 429: Too Many Requests
我也尝试按照this answer的建议修改用户代理,但结果仍然相同
有人可以解释urllib模块中的哪些默认设置可能导致此问题吗?还是因为网站阻止了机器人程序?网站的其他产品页面也不起作用。
答案 0 :(得分:1)
429是服务器要求您停止。基本上,Web服务器认为您正在尝试垃圾邮件或抓取邮件,并且它不喜欢它。通常,您应该尊重服务器,如果经过一段时间后尝试使用429响应,则应该遵循该服务器。
如果您认为服务器错误地询问了您,则可以确保您的用户请求与用户从浏览器生成的用户请求“相似”,其中包括用户代理和所有常规浏览器会随请求一起发送其他信息。如果服务器向您发送了429,尽管它很可能暂时或永久地阻止了您的IP,那么您应该查看如何抓取多个IP。