Oozie用于多个mapreduce工作

时间:2015-11-18 08:55:25

标签: hadoop oozie

我有一系列需要运行的mapreduce作业。我想知道是否有使用Oozie的优势,而不是有一个大司机"会运行那个序列吗?

我知道Oozie可以用来运行不同类型的多个动作,例如猪脚本,shell脚本,先生的工作,但我特别感兴趣的是,如果我分开我的两份工作并使用Oozie运行它们,或者只有一个罐子来完成它?

1 个答案:

答案 0 :(得分:0)

Oozie是一个调度程序 - 粗略,文档记录不足,但是调度程序。

  • 如果您不需要安排本身,或者边缘节点上的CRON就足够了
  • 如果您想自己处理工作流逻辑(例如有条件的话) 分支,并行执行w /等待散步者,打电话 具有ad hoc参数的通用子工作流,有关错误的电子邮件警报, <在此插入您的宠物功能>)或者不需要任何花哨的逻辑
  • 如果您自己处理执行日志和状态历史记录,或者不关心历史记录

......好吧,不要使用调度程序。

PS:你也有Luigi (Spotify)和Azkaban (LinkedIn)作为替代Hadoop调度程序。

[edit] 要考虑的额外要点:如果您的“司机”因任何原因崩溃,您可能没有机会发送提醒;但如果从Oozie运行,最终将检测到崩溃(可能需要多达30分钟。在角落的情况下,例如由于YARN RM故障转移导致AM作业自毁)