我写了一个python脚本来验证主机的url连接。在python(3.6)curl
模块中,在Linux requests
中报告成功(http 200)的内容报告为403。
我希望有人可以帮助我了解报告的http状态代码中的区别吗?
从Linux命令行卷曲。...
$ curl -ILs https://www.h2o.ai|egrep ^HTTP
HTTP/1.1 200 OK
Python请求模块.....
>>> import requests
>>> url = 'https://www.h2o.ai'
>>> r = requests.get(url, verify=True, timeout=3)
>>> r.status_code
403
>>> requests.packages.urllib3.disable_warnings()
>>> r = requests.get(url, verify=False, timeout=3)
>>> r.status_code
403
答案 0 :(得分:6)
似乎python-requests/<version>
User-Agent
收到了网站的403响应:
In [98]: requests.head('https://www.h2o.ai', headers={'User-Agent': 'Foo bar'})
Out[98]: <Response [200]>
In [99]: requests.head('https://www.h2o.ai')
Out[99]: <Response [403]>
您可以根据需要与网站所有者联系,也可以通过User-Agent
标头使用其他用户代理(如我上面所用)。
我是如何调试的:
我已经使用curl
(-v
)选项运行--verbose
来检查正在发送的标头,然后使用requests
与response.request
一起检出了标头(假设响应保存为response
)。
除User-Agent
标头外,我没有发现任何显着差异;因此,更改User-Agent
标头的工作与我预期的一样。