有没有人知道从MPI中读取/写入文件到hdfs的好方法?我已经做了大量的挖掘试图解决这个问题,只需要一个大方向来追求。
答案 0 :(得分:1)
关于MPI I / O的MPI标准有一整章。我从那里开始阅读。
MPI实现已经实现了这一点,通常使用ROMIO。你也可以看一下。
答案 1 :(得分:1)
HDFS存在一些奇怪之处,使其成为MPI-IO的一个有趣目标。最重要的是,对来自多个进程的修改(写入)的限制。
看起来PLFS项目(采用MPI-IO风格“全部写入一个文件”工作负载并将其更改为“每个进程一个文件”工作负载)使HDFS成为其目标之一。这篇论文(引用了两次引用)似乎是参考文献? http://www.pdl.cmu.edu/PDL-FTP/HECStorage/CMU-PDL-12-115.pdf
所以你有了由ROMIO实现的MPI-IO接口。 ROMIO有一个名为ADIO的设备抽象层,PLFS可以是其中一个底层设备(如果你修补它)。然后PLFS说HDFS,你最终执行I / O.
我不知道这个堆栈有多高效!