下载网站中的所有文件

时间:2017-08-07 06:47:59

标签: python r download webclient-download

我需要下载此链接下的所有文件,其中只有郊区名称在每个链接中不断变化

仅供参考 https://www.data.vic.gov.au/data/dataset/2014-town-and-community-profile-for-thornbury-suburb

此搜索链接下的所有文件: https://www.data.vic.gov.au/data/dataset?q=2014+town+and+community+profile

任何可能性?

谢谢:)

3 个答案:

答案 0 :(得分:13)

您可以下载此文件

import urllib2
response = urllib2.urlopen('http://www.example.com/file_to_download')
html = response.read()

获取页面中的所有链接

from bs4 import BeautifulSoup

import requests
r  = requests.get("http://site-to.crawl")
data = r.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))

答案 1 :(得分:1)

您应该首先阅读html,使用Beautiful Soup对其进行解析,然后根据要下载的文件类型查找链接。例如,如果要下载所有pdf文件,则可以检查链接是否以.pdf扩展名结尾。

这里有很好的解释和代码:

https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

答案 2 :(得分:0)

你可以用两种方式做到这一点1.通过代码2.by软件

1.by code

使用Web Scrapper库,如BeautifulSoup,JSoup

如果它不起作用或您需要对按钮执行点击,那么您可以使用Selenium。

2.by software

使用互联网下载管理器 Grabber功能执行此操作