Python - 并行读取hdf5文件

时间:2017-06-22 20:02:28

标签: python parallel-processing cython hdf5

我在磁盘上存储了大约1000个单独的HDF5文件。每个只需大约10ms就可以加载到内存中,所以我想知道并行加载它们的最佳方法是什么,这样我就可以获得线性性能提升。

我尝试过多处理,但由于设置进程的开销,最终会比连续加载它们慢。我已经研究过Cython,特别是prange,但是在优化它以加快速度方面遇到了麻烦。任何指针都将不胜感激!

1 个答案:

答案 0 :(得分:0)

这听起来像mapreduce的工作,但如果你只有一台机器,那么我建议使用管道。编写一个脚本来打开文件并将数据打印到stdout,然后在另一个脚本中从stdin读取数据并处理。您将script1重定向到script2。

ValueError: length not known: ViewOp [id A] 'v'