Dask数组的并行处理

时间:2018-07-09 20:14:03

标签: parallel-processing dask

我是Dask和Parallel处理的新手。我有几个hdf5文件,希望通过一个产生数值输出的函数运行每个文件。在函数中,hdf5转换为dask数组。我想知道什么是最快的方法来并行化代码,以便每个hdf5文件可以同时运行该函数。我应该将hdf5文件转换为函数外部的dask数组吗?

1 个答案:

答案 0 :(得分:0)

这个问题有点抽象,但是您可以使用read_hdf的{​​{1}}方法加载数据。

然后使用您的函数(使用dask.dataframeapplymap_partitions在其上进行所需的计算。 您以后可以转换为数组。

请注意,您可以使用以下语法一次读取多个applymap文件:

hdf

更多信息:

  

http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_hdf