Question

我是python世界的新手，我想进行网络抓取。

我想将一些xls文档从以下网站下载到特定位置的文件夹中。（例如台式机）

您能帮我吗？

网站是

我已经尝试过类似问题的代码，但是我没有设法使它们适用于我的情况：（

非常感谢。

Answer 1

要使用BeautifulSoup，您首先需要了解html源代码的结构。您可以通过简单的Google搜索找到一些与此相关的基本教程。

但是最基本的是html代码包含带有tags的元素，而这些标记具有attributes。您要查找的内容位于<a>标记下，并将相应的链接作为href属性。因此，我们需要找到所有具有<a>属性且具有excel扩展名href的{{1}}标签。

您可以通过检查页面来查看此内容（在页面上单击鼠标右键，然后选择“检查”或ctrl-shift-I，以打开“开发工具”窗格。然后，您可以单击四周以找到所需的零件以及相应的零件html代码）并查看html源代码：

一旦有了它们，就将遍历它们以打开并保存。我们还将仅针对该标记元素的文本/内容中包含“补充：全球公共表格”的内容执行此操作。

请确保选择正确的根目录，并在其中保存xls：

output = open('C:/path/to/desktop/' + filename, 'wb')