我正在尝试从该网站获取一些数据。
http://asphaltoilmarket.com/index.php/state-index-tracker/
我正在尝试使用以下代码获取数据,但是超时。
import requests
asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')
此网站打开时浏览器没有问题,我也可以使用此代码从其他网站(结构不同)获取数据,但我的代码不适用于该网站。我不确定我需要进行哪些更改。
此外,我可以在excel和另一个使用curl中使用GET的工具(Alteryx)中下载数据。
答案 0 :(得分:1)
他们可能不希望您抓取他们的网站。
响应代码可以快速表明这一点。
>>> import requests
>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')
>>> asphalt_r
<Response [406]>
406 =不可接受
>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/', headers={"User-Agent": "curl/7.54"})
>>> asphalt_r
<Response [200]>
阅读并遵守其AUP和服务条款。
工作并不等于许可。