数据移动HDFS Vs并行文件系统与MPI

时间:2012-07-06 05:56:04

标签: hadoop filesystems hdfs

我目前正致力于在MR-MPI(MPI上的MapReduce)上实现机器学习算法。而且我也试图了解其他MapReduce框架,特别是Hadoop,所以以下是我的基本问题(我是MapReduce框架的新手,如果我的问题没有意义,我会发誓)。

问题:由于MapReduce可以在许多方面实现,例如并行文件系统(GPFS),HDFS,MPI,e.t.c。,。在映射步骤之后,有一个整理操作,然后是一个reduce操作。对于整理操作,我们需要在节点之间进行一些数据移动。在这方面,我想知道HDFS与GPFS Vs MPI中数据移动机制(节点之间)的区别。

如果您向我提供一些很好的解释并且可以给我一些很好的参考资料,我会感激不尽,因此我可以进一步了解详情。

感谢。

2 个答案:

答案 0 :(得分:0)

作为范例的MapReduce可以在许多存储系统上实现。事实上,Hadoop所谓的DFS(分布式文件系统)抽象,可以集成不同的存储系统并在其上运行MapReduce。例如,有Amazon S3,本地文件系统,打开Stack Swift和其他集成。
同时,HDFS集成具有一个特殊属性 - 它向数据所在的MR引擎(JobTracker,更具体)报告,并且它实现了映射的智能调度,以便每个Mapper处理的数据通常与之并置Mapper。 因此,在映射阶段,当MR在HDFS上运行时,数据不会通过网络移动。
更一般地说,Hadoop MR的想法是将代码移动到数据而不是相反,并且在评估任何可扩展的MR实现时它应该是重要的标准 - 该系统是否关心映射器处理本地数据。

答案 1 :(得分:0)

OP有很多东西 - 消息和文件系统,所以有多个ansewers。

Hadoop / MAPI是一个WIP,您可以找到更多详细信息here

Hadoop / GPFS仍为open

Hadoop / HDFS从Apache Hadoop开箱即用。对于映射器和Reducer之间的数据传输,使用HTTP,不确定原因。