使用Dask读取多个文件

时间:2018-10-06 03:19:10

标签: python dask dask-distributed

我正在尝试简单地并行读取24个科学数据文件,每个文件约250MB,因此总计约6GB。数据为2D数组格式。它存储在并行文件系统上,并从群集中读取,尽管我现在仅从单个节点读取。数据采用类似于HDF5(称为Adios)的格式,并且类似于h5py包进行读取。每个文件大约需要4秒钟才能读取。我正在阅读此处(http://docs.dask.org/en/latest/array-creation.html)的skimage示例。但是,无论有多少工人,我都没有提速。我以为可能我使用的是错误的,也许仍然只使用了1个工人,但是当我分析它时,似乎确实有24个工人。如何提高读取数据的速度? dask_profile

import adios as ad
import numpy as np
import dask.array as da
import dask

bpread = dask.delayed(lambda f: ad.file(f)['data'][...],pure=True)
lazy_datas = [bpread(path) for path in paths]
sample = lazy_datas[0].compute()

#read in data
arrays = [da.from_delayed(lazy_data,dtype=sample.dtype,shape=sample.shape) for lazy_data in lazy_datas]
datas = da.stack(arrays,axis=0)
datas2 = datas.compute(scheduler='processes',num_workers=24)

1 个答案:

答案 0 :(得分:0)

我建议查看调度程序的仪表板的/profile标签。这将告诉您哪些代码行占用最多的时间。

我的第一个猜测是,您已经在最大限度地利用磁盘为您提供数据的能力。您不受CPU的限制,因此添加更多内核将无济于事。不过,这只是一个猜测,与往常一样,您必须进行分析并进一步调查您的情况才能确定。