应用错误收集

在Hadoop MapReduce中排序和随机优化

时间：2011-02-22 22:53:14

标签： hadoop mapreduce

我正在寻找一个关于Hadoop的基于研究/实现的项目，我遇到了维基页面上发布的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是，这个页面最后一次更新是在2009年9月。所以，我不确定这些想法是否已经实施过了。我对“MR框架中的排序和随机优化”特别感兴趣，它谈到“在洗牌之前将几个映射的结果组合在机架或节点上。这可以减少寻道工作和中间存储”。

以前有人试过这个吗？这是在当前版本的Hadoop中实现的吗？

3 个答案:

答案 0 :(得分：2)

有组合器功能（如http://wiki.apache.org/hadoop/HadoopMapReduce的“组合”部分所述），它或多或少是内存中的随机播放。但我相信组合器只聚合单个映射作业的键值对，而不是给定节点或机架的所有对。

答案 1 :(得分：1)

项目描述旨在“优化”。这个功能已经存在于当前的Hadoop-MapReduce中，它可以在很短的时间内运行。对我来说听起来很有价值。

答案 2 :(得分：1)

我认为这是一项非常具有挑战性的任务。根据我的理解，这个想法是制作一个计算树而不是“平面”map-reduce。它的好例子是谷歌的Dremel引擎（现在称为BigQuey）。我建议你阅读这篇论文：http://sergey.melnix.com/pub/melnik_VLDB10.pdf
如果你对这种架构感兴趣 - 你也可以看一下这项技术的开源克隆 - Open Dremel。 http://code.google.com/p/dremel/