dask:如何从Microsoft Azure Blob将CSV文件读入DataFrame

时间:2017-12-10 18:01:29

标签: python pandas azure android-asynctask dask

S3F是S3的Pythonic文件接口, DASK是否具有Azure存储Blob的任何Pythonic接口。用于Azure存储Blob的Python SDK提供了对blob进行读写的方法,但该接口要求将文件从云下载到本地计算机。我正在寻找能够读取blob以支持DASK并行读取的流程或字符串而不会持久保存到本地磁盘的解决方案。

1 个答案:

答案 0 :(得分:1)

我在这里新推了代码:https://github.com/dask/dask-adlfs

您可以从该位置进行pip-install,但事先可以通过conda安装要求(dask,cffi,oauthlib)来获得最佳服务。在python会话中,执行import dask_adlfs就足以使用Dask注册后端,这样您就可以使用带有dask函数的azure URL,如:

import dask.dataframe as dd
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={
    tenant_id='mytenant', client_id='myclient', 
    client_secret='mysecret'})

由于此代码完全是全新的且未经测试,因此需要粗略的边缘。幸运的话,你可以帮助解决这些问题。