简介
我正在将一些在常规笔记本电脑上运行的代码移植到带有MPI的集群(HPC)
我正在处理的是一个令人尴尬的并行问题,我向一群工人发送不同的文件路径。每个相应的文件都包含一个以前使用joblib.dump()
函数lzma compression=2
生成的numpy数组。
详情
所有文件都保存在同一目录中
由joblib.dump()
生成的文件列表示例:
- File1.lzma
- File1.lzma_01.npy.z
- File2.lzma
- File2.lzma_01.npy.z
如果我传递给worker,那么工作者的扩展名为.lmza(Ex.File1.lzma)joblib.load()
的文件的路径无法加载文件并给我一个错误。如果我使用.lzma_01.npy.z传递文件也是一样的。我的猜测是因为两个文件都是必需的,如果HPC不足以使文件位于同一个目录中(在我的笔记本电脑上运行的代码已足够且文件已正确加载)
问题
1)我的假设是否正确?
2)有没有办法将两个文件路径传递给joblib.load()
?
3)这是一个缺少的功能,我应该重新处理文件并用pickle保存它们?
4)我完全错了吗?
由于