分层MapReduce

时间:2013-06-10 07:10:18

标签: java hadoop mapreduce cluster-computing

我想知道是否可以定义一个Hierarchical MapReduce作业? 换句话说,我希望有一个map-reduce作业,在mapper阶段将调用另一个MapReduce作业。可能吗?你有什么建议吗?

我想这样做是为了在我的程序中获得更高级别的并行/分发。 谢谢, 阿里克。

3 个答案:

答案 0 :(得分:2)

Hadoop definitive guide book包含许多与MapReduce作业链相关的配方,包括示例代码和详细说明。特别是章节称为'高级API使用'或其附近的东西。

我个人成功地用几个HBase表替换了复杂的map-reduce作业,这些表用作手工TableInputFormat扩展名的源。结果是输入格式,它将源数据与最小的缩减相结合,因此将作业转换为单个映射器步骤。所以我建议你也要朝这个方向看。

答案 1 :(得分:1)

您应该尝试Cascading。它允许您使用多个步骤定义非常复杂的作业。

答案 2 :(得分:0)

我想你需要oozie工具。 Oozie帮助使用xml文件定义工作流程。