从1.0.0+开始,查看工作者/执行者登录Spark UI

时间:2014-12-12 11:24:09

标签: apache-spark yarn

在0.9.0中查看工作日志很简单,只需点击一下spark ui主页。

现在(1.0.0+)我找不到它们。此外,当我的工作崩溃时,Spark UI停止工作!这很烦人,调试工具的重点是什么,只有在应用程序不需要调试时才能工作。根据{{​​3}}我需要知道我的主人网站是什么,但我不知道怎么做,火花在启动时没有吐出这些信息,只是说:

... -Dspark.master=\"yarn-client\" ...

显然http://yarn-client:8080无法正常工作。有些网站谈论YARN现在如何发现日志已被超级混淆 - 而不仅仅是在用户界面上,你必须登录框才能找到它们。当然这是一个大规模的回归,必须有一个更简单的方法??

我该如何找出主URL是什么?如何找到我的工人(现在称为执行者)日志?

2 个答案:

答案 0 :(得分:2)

根据您对YARN NodeManager日志聚合的配置,将自动聚合spark作业日志。运行时日志通常可通过以下方式找到:

Spark Master Log

如果您正在使用yarn-cluster运行,请转到YARN Scheduler Web UI。你可以在那里找到Spark Master日志。职位描述页面“log”按钮给出了内容。

使用yarn-client,驱动程序在您的spark-submit命令中运行。然后你看到的是驱动程序日志,如果log4j.properties配置为在stderr或stdout中输出。

Spark Executor Log

在驱动程序日志中搜索“executorHostname”。有关更多详细信息,请参阅注释。

答案 1 :(得分:0)

这些答案记录了如何从命令行或UI

中找到它们

Where are logs in Spark on YARN?

对于UI,在边缘节点上

在/etc/hadoop/conf/yarn-site.xml中查找yarn资源管理器URI(yarn.resourcemanager.webapp.address)。

或使用命令行:

yarn logs -applicationId [OPTIONS]