我想知道是否可以定义一个Hierarchical MapReduce作业? 换句话说,我希望有一个map-reduce作业,在mapper阶段将调用另一个MapReduce作业。可能吗?你有什么建议吗?
我想这样做是为了在我的程序中获得更高级别的并行/分发。 谢谢, 阿里克。
答案 0 :(得分:2)
Hadoop definitive guide book包含许多与MapReduce作业链相关的配方,包括示例代码和详细说明。特别是章节称为'高级API使用'或其附近的东西。
我个人成功地用几个HBase表替换了复杂的map-reduce作业,这些表用作手工TableInputFormat
扩展名的源。结果是输入格式,它将源数据与最小的缩减相结合,因此将作业转换为单个映射器步骤。所以我建议你也要朝这个方向看。
答案 1 :(得分:1)
您应该尝试Cascading。它允许您使用多个步骤定义非常复杂的作业。
答案 2 :(得分:0)
我想你需要oozie工具。 Oozie帮助使用xml文件定义工作流程。