在Hadoop MapReduce中排序和随机优化

时间:2011-02-22 22:53:14

标签: hadoop mapreduce

我正在寻找一个关于Hadoop的基于研究/实现的项目,我遇到了维基页面上发布的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是,这个页面最后一次更新是在2009年9月。所以,我不确定这些想法是否已经实施过了。我对“MR框架中的排序和随机优化”特别感兴趣,它谈到“在洗牌之前将几个映射的结果组合在机架或节点上。这可以减少寻道工作和中间存储”。

以前有人试过这个吗?这是在当前版本的Hadoop中实现的吗?

3 个答案:

答案 0 :(得分:2)

有组合器功能(如http://wiki.apache.org/hadoop/HadoopMapReduce的“组合”部分所述),它或多或少是内存中的随机播放。但我相信组合器只聚合单个映射作业的键值对,而不是给定节点或机架的所有对。

答案 1 :(得分:1)

项目描述旨在“优化”。 这个功能已经存在于当前的Hadoop-MapReduce中,它可以在很短的时间内运行。 对我来说听起来很有价值。

答案 2 :(得分:1)

我认为这是一项非常具有挑战性的任务。根据我的理解,这个想法是制作一个计算树而不是“平面”map-reduce。它的好例子是谷歌的Dremel引擎(现在称为BigQuey)。我建议你阅读这篇论文:http://sergey.melnix.com/pub/melnik_VLDB10.pdf
如果你对这种架构感兴趣 - 你也可以看一下这项技术的开源克隆 - Open Dremel。 http://code.google.com/p/dremel/