我是python世界的新手,我想进行网络抓取。
我想将一些xls文档从以下网站下载到特定位置的文件夹中。 (例如台式机)
您能帮我吗?
网站是
https://www.ici.org/research/stats
我已经尝试过类似问题的代码,但是我没有设法使它们适用于我的情况:(
非常感谢。
答案 0 :(得分:0)
要使用BeautifulSoup,您首先需要了解html源代码的结构。您可以通过简单的Google搜索找到一些与此相关的基本教程。
但是最基本的是html代码包含带有tags
的元素,而这些标记具有attributes
。您要查找的内容位于<a>
标记下,并将相应的链接作为href
属性。因此,我们需要找到所有具有<a>
属性且具有excel扩展名href
的{{1}}标签。
您可以通过检查页面来查看此内容(在页面上单击鼠标右键,然后选择“检查”或ctrl-shift-I,以打开“开发工具”窗格。然后,您可以单击四周以找到所需的零件以及相应的零件html代码)并查看html源代码:
一旦有了它们,就将遍历它们以打开并保存。我们还将仅针对该标记元素的文本/内容中包含“补充:全球公共表格”的内容执行此操作。
请确保选择正确的根目录,并在其中保存xls
:
output = open('C:/path/to/desktop/' + filename, 'wb')