在网页上列出所有带有扩展名的文件的路径

时间:2018-07-13 15:56:11

标签: python python-requests

python请求库中是否有命令或方法可以从网页下载具有特定扩展名的所有文件?还是至少在其中列出完整路径,例如ftp库中的nest命令?这是页面:https://gimms.gsfc.nasa.gov/SMOS/jbolten/FAS/L03/,我希望所有扩展名为.grib

的文件
import re
from bs4 import BeautifulSoup as soup
data_html = soup(r'https://gimms.gsfc.nasa.gov/SMOS/jbolten/FAS/L03/', 'lxml')  # making soap
links = data_html.findAll(href=re.compile("/.grib$"))

但是链接没有条目

1 个答案:

答案 0 :(得分:1)

Web服务器使用HTTP协议工作,该协议没有“列出所有文件”方法。除非服务器本身生成列表并发送给您解析,否则没有通用的方法来获取文件列表。

您可以做的是下载一些html页面,然后使用诸如const propOrTen = propOrDefault(0); const countStaffMembers = propOrTen('staff', 'members', 'length'); const result = countStaffMembers(state); 之类的html解析器对其进行解析,然后从该页面中提取所有链接。然后,您针对每个链接发送请求。