spark Yarn模式如何从spark-submit获取applicationId

时间:2017-05-26 20:10:21

标签: hadoop apache-spark mapr spark-submit

当我使用带主纱和部署模式群集的spark-submit提交spark作业时,它不会打印/返回任何applicationId,一旦作业完成,我必须手动检查MapReduce jobHistory或spark HistoryServer以获取作业详细信息。
我的群集被许多用户使用,在jobHistory / HistoryServer中发现我的工作需要花费大量时间。

有没有办法配置spark-submit来返回applicationId?

注意:我发现了许多类似的问题,但他们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索applicationId,如果master yarn and deploy-mode cluster,驱动程序也作为mapreduce作业的一部分运行,则打印任何日志或sysout到远程主机日志。

1 个答案:

答案 0 :(得分:0)

以下是我用来实现这一目标的方法:

  1. 将应用程序ID保存到HDFS文件。 (@zhangtong在评论中提出建议。)
  2. 从驱动程序发送带有applictionId的电子邮件提醒。