Python库,可通过文件缓存进行可复制的远程数据访问

时间:2019-04-05 17:44:26

标签: python file caching

在数据分析中,我经常使用远程位置(URL)的xlsx或csv文件。我希望我的代码具有可复制性和可理解性,因此最好的方法是下载Python代码中的文件,以使URL包含在脚本中,但是运行脚本时,每次下载文件的时间都太长。所以我的问题是:是否有一个Python库可以自动下载和缓存文件,因此我可以像这样在我的代码中使用URL

from remotecaching import r_url

f = open(r_url("https://domain.tld/resource.csv"))

在此示例中,r_url下载文件(如果它不在本地缓存中),然后将文件路径返回到缓存的文件。

Snakemake具有类似的系统(https://snakemake.readthedocs.io/en/stable/snakefiles/remote_files.html),但是在snakemake生态系统之外无法使用。

1 个答案:

答案 0 :(得分:0)

我写了一个简单的包装程序,完成了我想要的。它使用XDG Cache目录存储下载的文件

NU_NUMBT