如何从该特定网站抓取数据?

时间:2019-12-11 16:16:38

标签: python-3.x

我正在尝试从该网站获取一些数据。

http://asphaltoilmarket.com/index.php/state-index-tracker/

我正在尝试使用以下代码获取数据,但是超时。

   import requests
   asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')

此网站打开时浏览器没有问题,我也可以使用此代码从其他网站(结构不同)获取数据,但我的代码不适用于该网站。我不确定我需要进行哪些更改。

此外,我可以在excel和另一个使用curl中使用GET的工具(Alteryx)中下载数据。

1 个答案:

答案 0 :(得分:1)

他们可能不希望您抓取他们的网站。
响应代码可以快速表明这一点。

>>> import requests
>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')
>>> asphalt_r
<Response [406]>

406 =不可接受

>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/', headers={"User-Agent": "curl/7.54"})
>>> asphalt_r
<Response [200]>

阅读并遵守其AUP和服务条款。

工作并不等于许可。