parallel-processing - Dask数组的并行处理 - Thinbug

Dask数组的并行处理

时间：2018-07-09 20:14:03

标签： parallel-processing dask

我是Dask和Parallel处理的新手。我有几个hdf5文件，希望通过一个产生数值输出的函数运行每个文件。在函数中，hdf5转换为dask数组。我想知道什么是最快的方法来并行化代码，以便每个hdf5文件可以同时运行该函数。我应该将hdf5文件转换为函数外部的dask数组吗？

1 个答案:

答案 0 :(得分：0)

这个问题有点抽象，但是您可以使用read_hdf的{{1}}方法加载数据。

然后使用您的函数（使用dask.dataframe或apply或map_partitions在其上进行所需的计算。您以后可以转换为数组。

请注意，您可以使用以下语法一次读取多个applymap文件：

hdf

更多信息：

http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_hdf