在Hadoop中使用哪种协议将数据从Mappers复制到Reducers?

时间:2017-02-24 08:07:06

标签: http hadoop mapreduce hdfs tcp-ip

我对Hadoop框架用于将映射器输出(本地存储在映射器节点上)复制到reducers任务(未在同一节点上运行)的传输协议有所怀疑。 - 阅读一些博客,它使用HTTP进行随机播放阶段 - 还读到HDFS数据传输(由mapreduce作业使用)是直接使用TCP / IP套接字完成的。 - 阅读关于Hadoop中的RPC The Definitive指南。

任何指针/参考都会有很大的帮助。

1 个答案:

答案 0 :(得分:2)

Hadoop使用HTTPServlets进行中间数据重组。见下图(取自Wang等人的JVM-Bypass for Efficient Hadoop Shuffling): Intermediate data shuffling in Hadoop

要仔细阅读,请查看2013年发布的“JVM-Bypass for Efficient Hadoop Shuffling”工作(full-text available)。