我是Dask和Parallel处理的新手。我有几个hdf5文件,希望通过一个产生数值输出的函数运行每个文件。在函数中,hdf5转换为dask数组。我想知道什么是最快的方法来并行化代码,以便每个hdf5文件可以同时运行该函数。我应该将hdf5文件转换为函数外部的dask数组吗?
答案 0 :(得分:0)
这个问题有点抽象,但是您可以使用read_hdf
的{{1}}方法加载数据。
然后使用您的函数(使用dask.dataframe
或apply
或map_partitions
在其上进行所需的计算。
您以后可以转换为数组。
请注意,您可以使用以下语法一次读取多个applymap
文件:
hdf
更多信息:
http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_hdf