Question

我可以使用dask.dataframe.read_sql_table读取数据，例如df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N)

将其保存为Azure Blob存储中的拼花文件的下一步（最佳）是什么？

根据我的小型研究，有两种选择：

本地保存并使用https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-blobs?toc=/azure/storage/blobs/toc.json（不适用于大数据）
我相信adlfs是要从blob阅读
使用dask.dataframe.to_parquet并找出如何指向blob容器
intake项目（不确定从哪里开始）

Answer 1

$ pip install adlfs

dd.to_parquet(
    df=df, 
    path='absf://{BLOB}/{FILE_NAME}.parquet', 
    storage_options={'account_name': 'ACCOUNT_NAME',
                     'account_key': 'ACCOUNT_KEY'},
    )

将数据从数据库移至Azure Blob存储

1 个答案: