如何下载网站上所有可用的数据文件夹?

时间:2018-09-10 16:26:15

标签: python web-scraping download downloading

通常,如果网站显示了一系列指向包含文件夹的数据的链接(即包含经济数据的电子表格),那么我该如何编写一个程序来识别所有链接并下载数据?

尤其是,我正在尝试从此网站https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html下载2012年至2018年的所有文件夹

我尝试了以下建议的方法,但是似乎未下载数据链接。

my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'


import requests
from bs4 import BeautifulSoup

r  = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)

links=[]
for link in soup.find_all('a'):
    links.append(link.get('href'))
    print(link.get('href'))

在所有附加到链接的URL中,没有一个指向数据。

最后,即使我拥有正确的链接,如何才能使用它们实际下载文件?

非常感谢! ;)

1 个答案:

答案 0 :(得分:0)

这是典型的网络抓取任务。