Question

我在磁盘上存储了大约1000个单独的HDF5文件。每个只需大约10ms就可以加载到内存中，所以我想知道并行加载它们的最佳方法是什么，这样我就可以获得线性性能提升。

我尝试过多处理，但由于设置进程的开销，最终会比连续加载它们慢。我已经研究过Cython，特别是prange，但是在优化它以加快速度方面遇到了麻烦。任何指针都将不胜感激！

Answer 1

这听起来像mapreduce的工作，但如果你只有一台机器，那么我建议使用管道。编写一个脚本来打开文件并将数据打印到stdout，然后在另一个脚本中从stdin读取数据并处理。您将script1重定向到script2。

ValueError: length not known: ViewOp [id A] 'v'