Hadoop地图/减少链接

时间:2010-11-12 23:58:20

标签: hadoop mapreduce

我想链接2个Map / Reduce作业。我正在尝试使用JobControl来实现相同的目标。我的问题是 -

JobControl需要org.apache.hadoop.mapred.jobcontrol.Job,而这又需要不推荐使用的org.apache.hadoop.mapred.JobConf。如何解决这个问题以链接我的Map / Reduce?

任何人都有更好的链接想法(除了级联)。

谢谢, 中号

4 个答案:

答案 0 :(得分:1)

看起来类似于 Pipeling hadoop map reduce jobs

答案 1 :(得分:0)

你可以使用Riffle,它允许你将任意进程链接在一起(任何你坚持其注释的东西)。

它有一个基本的依赖调度程序,因此它会为您订购和执行您的工作。它是Apache许可的。如果您是maven用户,它也在Conjars repo上。

我是作者,并且写了它,因此Mahout和其他自定义应用程序将能够拥有一个与Cascading Flows兼容的通用工具。

我也是Cascading的作者。但Cascading中的MapReduceFlow + Cascade在大多数原始MR作业链中都能很好地工作。

答案 2 :(得分:0)

Cloudera有一个名为Oozie的工作流工具,可以帮助进行这种链接。只是让一份工作接着另一份工作可能会有点过分。

答案 3 :(得分:0)

您可以参考我对这个问题的回答,因为它看起来非常相似: Pipeling hadoop map reduce jobs