我是Hadoop的新手,尤其是Hadoop Job Scheduling。这是我想要做的。
我有2个流,每个流都有一个Hadoop作业。我可以自由地将这些流程放在同一个项目中或不同的项目中。我不希望Hadoop作业在群集上同时运行,但我也想确保它们交替运行。
E.g。 flow_1(使用hadoop_job_1)运行并完成 - > flow_2(使用hadoop_job_2)运行并完成 - > flow_1(带有hadoop_job_1)运行并完成等等。
当然,我也想优雅地处理特殊情况。 例如。 flow_1已完成,但是flow_2尚未就绪,如果flow_1准备就绪,flow_1有机会再次运行,如果flow_1失败,则flow_2仍然可以运行,等等。
我想知道我可以探索哪些能够做到这一点的调度程序。
我们正在使用MapR。
由于
答案 0 :(得分:0)
这看起来是oozie的标准用例。看看这些教程 Executing an Oozie workflow with Pig, Hive & Sqoop actions 和Oozie workflow scheduler for Hadoop