如何在Python中使用wildacrds从网站下载文件?我有一个网站,我需要定期下载文件。问题是文件名每次都会改变。但是文件的一部分保持不变。如何使用通配符在URL中指定文件的未知部分?
答案 0 :(得分:7)
如果文件名发生变化,那么某处文件仍然必须有链接(否则没人会猜到文件名)。一种典型的方法是获取包含文件链接的HTML页面,搜索链接目标,然后发送第二个请求以获取您所追踪的实际文件。
Web服务器通常不会像您描述的那样实现这样的“通配符”工具,因此您必须使用其他技术。
答案 1 :(得分:1)
您可以尝试使用ftplib登录ftp服务器。 来自python docs:
from ftplib import FTP
ftp = FTP('ftp.cwi.nl') # connect to host, default port
ftp.login() # user anonymous, passwd anonymous@
ftp对象有一个dir
方法,列出目录的内容。
您可以使用此列表查找所需文件的名称。