我正在经营一项多项行动的Oozie工作,而且我无法让它发挥作用。在排除故障的过程中,我被大量日志所淹没。
在YARN UI(yarn-site.xml中的yarn.resourcemanager.webapp.address
,通常在端口8088上),有application_<app_id>
个日志。
在作业历史记录服务器(yarn-site.xml中的yarn.log.server.url
,我们的端口19888上),有job_<job_id>
日志。 (这些工作日志也应该出现在Hue的Job Browser上,对吧?)
在Hue的Oozie工作流程编辑器中,有task
和task_attempt
(不确定他们是否相同,所有内容都是混淆的我已经喝了汤,如果你点击这里就会重定向到Job Browser。
有人可以从Hadoop / Oozie架构的角度解释这些东西之间的区别吗?
P.S。
我也在日志container_<container_id>
中看到了。不妨在你对上述事情的解释中加入这一点。
答案 0 :(得分:13)
就YARN而言,在群集上运行的程序称为应用程序。就MapReduce而言,它们被称为作业。因此,如果您在YARN上运行MapReduce,那么作业和应用程序是相同的(如果您仔细查看,作业ID和应用程序ID是相同的)。
MapReduce作业由几个任务组成(它们可以是map或reduce任务)。如果任务失败,则会在另一个节点上再次启动。这些都是任务尝试。
Container是一个YARN术语。这是资源分配的单位。例如,MapReduce任务将在一个容器中运行。