从网页,抓取工具中下载xls文件

时间:2019-06-05 11:14:11

标签: web web-scraping download xls

我是python世界的新手,我想进行网络抓取。

我想将一些xls文档从以下网站下载到特定位置的文件夹中。 (例如台式机)

您能帮我吗?

网站是

https://www.ici.org/research/stats

我已经尝试过类似问题的代码,但是我没有设法使它们适用于我的情况:(

非常感谢。

1 个答案:

答案 0 :(得分:0)

要使用BeautifulSoup,您首先需要了解html源代码的结构。您可以通过简单的Google搜索找到一些与此相关的基本教程。

但是最基本的是html代码包含带有tags的元素,而这些标记具有attributes。您要查找的内容位于<a>标记下,并将相应的链接作为href属性。因此,我们需要找到所有具有<a>属性且具有excel扩展名href的{​​{1}}标签。

您可以通过检查页面来查看此内容(在页面上单击鼠标右键,然后选择“检查”或ctrl-shift-I,以打开“开发工具”窗格。然后,您可以单击四周以找到所需的零件以及相应的零件html代码)并查看html源代码:

enter image description here

一旦有了它们,就将遍历它们以打开并保存。我们还将仅针对该标记元素的文本/内容中包含“补充:全球公共表格”的内容执行此操作。

请确保选择正确的根目录,并在其中保存xls

output = open('C:/path/to/desktop/' + filename, 'wb')