Hadoop,Oozie中的作业,应用程序,任务,任务尝试日志之间的差异

时间:2016-02-02 06:07:04

标签: hadoop oozie

我正在经营一项多项行动的Oozie工作,而且我无法让它发挥作用。在排除故障的过程中,我被大量日志所淹没。

在YARN UI(yarn-site.xml中的yarn.resourceman­ager.webapp.address,通常在端口8088上),有application_<app_id>个日志。

在作业历史记录服务器(yarn-site.xml中的yarn.log.server.url,我们的端口19888上),有job_<job_id>日志。 (这些工作日志也应该出现在Hue的Job Browser上,对吧?)

在Hue的Oozie工作流程编辑器中,有tasktask_attempt(不确定他们是否相同,所有内容都是混淆的我已经喝了汤,如果你点击这里就会重定向到Job Browser。

有人可以从Hadoop / Oozie架构的角度解释这些东西之间的区别吗?

P.S。 我也在日志container_<container_id>中看到了。不妨在你对上述事情的解释中加入这一点。

1 个答案:

答案 0 :(得分:13)

就YARN而言,在群集上运行的程序称为应用程序。就MapReduce而言,它们被称为作业。因此,如果您在YARN上运行MapReduce,那么作业和应用程序是相同的(如果您仔细查看,作业ID和应用程序ID是相同的)。

MapReduce作业由几个任务组成(它们可以是map或reduce任务)。如果任务失败,则会在另一个节点上再次启动。这些都是任务尝试。

Container是一个YARN术语。这是资源分配的单位。例如,MapReduce任务将在一个容器中运行。