如何在Hadoop中监视,发送长时间运行的作业的警报

时间:2017-08-21 21:50:07

标签: hadoop hive mapreduce monitoring

我有一个要求,我需要监视运行很长时间的hadoop作业(Hive / Map Reduce,spark),可能会说集群中的持续时间为3小时。我知道我可以在UI中查看所有这些工作,但我需要每小时或30分钟监控它,如果工作运行超过3小时,则发送电子邮件/警报。有没有办法做到这一点。 我的环境是HDP 2.6

提前致谢....

2 个答案:

答案 0 :(得分:0)

你可以看看Oozie。 Oozie允许您在作业超出预期运行时间时配置警报。

要使用此功能,您必须将作业作为Oozie工作流程提交。

http://oozie.apache.org/docs/4.2.0/DG_Overview.html https://oozie.apache.org/docs/4.3.0/DG_SLAMonitoring.html#SLA_Definition_in_Workflow

答案 1 :(得分:0)

如tk421所述 - oozie是"对"在hadoop的背景下这样做的方法。

但是,如果您不需要所有开销,那么简单的按需看门狗定时器就足够了(即:wdt.io)。基本上,工作流程是发送启动信号,启动作业,并在作业完成时发送结束信号。如果第二个信号未在指定的时间内进入,则会发送电子邮件/短信警报。

此方法也适用于非hadoop工作流程。