在数据分析中,我经常使用远程位置(URL)的xlsx或csv文件。我希望我的代码具有可复制性和可理解性,因此最好的方法是下载Python代码中的文件,以使URL包含在脚本中,但是运行脚本时,每次下载文件的时间都太长。所以我的问题是:是否有一个Python库可以自动下载和缓存文件,因此我可以像这样在我的代码中使用URL
from remotecaching import r_url
f = open(r_url("https://domain.tld/resource.csv"))
在此示例中,r_url下载文件(如果它不在本地缓存中),然后将文件路径返回到缓存的文件。
Snakemake具有类似的系统(https://snakemake.readthedocs.io/en/stable/snakefiles/remote_files.html),但是在snakemake生态系统之外无法使用。
答案 0 :(得分:0)
我写了一个简单的包装程序,完成了我想要的。它使用XDG Cache目录存储下载的文件
NU_NUMBT