恢复Hadoop Jobs工作流程

时间:2012-05-30 02:33:13

标签: hadoop restart

在我的应用程序中,我有一系列5个Hadoop作业,它们使用

顺序链接在一起

Job.waitForCompletion(false)

现在,Hadoop文档清楚地说明了

...the onus on ensuring jobs are complete 
(success/failure) lies squarely on the clients

现在,如果我的作业客户端程序崩溃,我如何确保作业客户端程序在重新启动时可以在崩溃时恢复?有没有办法查询JobTracker并获取特定作业的句柄,然后检查其作业状态?

1 个答案:

答案 0 :(得分:0)

当客户端崩溃时,可以尝试以下方法:

Hadoop提供JobClient,可用于跟踪群集中当前正在运行的作业。因此,当客户端重新启动时,可以使用以下JobClient方法:

  • jobsToComplete() - 获取未完成但未失败的作业
  • jobsToComplete() - 获取未完成但未失败的作业
  • getAllJobs() - 获取提交的作业。
  • getClusterStatus() - 获取有关Map-Reduce群集的状态信息。
  • submitJob(JobConf job) - 如果作业失败,请将作业提交给MR系统。