我对Hadoop框架用于将映射器输出(本地存储在映射器节点上)复制到reducers任务(未在同一节点上运行)的传输协议有所怀疑。 - 阅读一些博客,它使用HTTP进行随机播放阶段 - 还读到HDFS数据传输(由mapreduce作业使用)是直接使用TCP / IP套接字完成的。 - 阅读关于Hadoop中的RPC The Definitive指南。
任何指针/参考都会有很大的帮助。
答案 0 :(得分:2)
Hadoop使用HTTPServlets进行中间数据重组。见下图(取自Wang等人的JVM-Bypass for Efficient Hadoop Shuffling):
要仔细阅读,请查看2013年发布的“JVM-Bypass for Efficient Hadoop Shuffling”工作(full-text available)。