我需要添加第三阶段 - 合并 - 它结合了单独的,并行的Reduce任务的输出。这使得可以做连接和构建笛卡尔产品之类的东西。任何人都可以帮我怎么做?我查了一下没有Hadoop 0.21 API来支持他的功能。
答案 0 :(得分:1)
Hadoop是一个MapReduce(不是MapReduceMerge!)框架,这不太可能改变。也就是说,您可以提交Jira或在http://getsatisfaction.com/cloudera/询问是否获得官方立场。
如果你需要加入,你应该尝试Pig(我唯一有实践经验的人,但也有其他人 - Hive,......)。猪使连接变得非常简单。