Question

我正在尝试从该网站获取一些数据。

http://asphaltoilmarket.com/index.php/state-index-tracker/

我正在尝试使用以下代码获取数据，但是超时。

   import requests
   asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')

此网站打开时浏览器没有问题，我也可以使用此代码从其他网站（结构不同）获取数据，但我的代码不适用于该网站。我不确定我需要进行哪些更改。

此外，我可以在excel和另一个使用curl中使用GET的工具（Alteryx）中下载数据。

Answer 1

他们可能不希望您抓取他们的网站。
响应代码可以快速表明这一点。

>>> import requests
>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/')
>>> asphalt_r
<Response [406]>

406 =不可接受

>>> asphalt_r = requests.get('http://asphaltoilmarket.com/index.php/state-index-tracker/', headers={"User-Agent": "curl/7.54"})
>>> asphalt_r
<Response [200]>

阅读并遵守其AUP和服务条款。

工作并不等于许可。

如何从该特定网站抓取数据？

1 个答案: