我想链接2个Map / Reduce作业。我正在尝试使用JobControl来实现相同的目标。我的问题是 -
JobControl需要org.apache.hadoop.mapred.jobcontrol.Job,而这又需要不推荐使用的org.apache.hadoop.mapred.JobConf。如何解决这个问题以链接我的Map / Reduce?
任何人都有更好的链接想法(除了级联)。
谢谢, 中号
答案 0 :(得分:1)
答案 1 :(得分:0)
你可以使用Riffle,它允许你将任意进程链接在一起(任何你坚持其注释的东西)。
它有一个基本的依赖调度程序,因此它会为您订购和执行您的工作。它是Apache许可的。如果您是maven用户,它也在Conjars repo上。
我是作者,并且写了它,因此Mahout和其他自定义应用程序将能够拥有一个与Cascading Flows兼容的通用工具。
我也是Cascading的作者。但Cascading中的MapReduceFlow + Cascade在大多数原始MR作业链中都能很好地工作。
答案 2 :(得分:0)
Cloudera有一个名为Oozie的工作流工具,可以帮助进行这种链接。只是让一份工作接着另一份工作可能会有点过分。
答案 3 :(得分:0)
您可以参考我对这个问题的回答,因为它看起来非常相似: Pipeling hadoop map reduce jobs