应用错误收集

spark Yarn模式如何从spark-submit获取applicationId

时间：2017-05-26 20:10:21

标签： hadoop apache-spark mapr spark-submit

当我使用带主纱和部署模式群集的spark-submit提交spark作业时，它不会打印/返回任何applicationId，一旦作业完成，我必须手动检查MapReduce jobHistory或spark HistoryServer以获取作业详细信息。
我的群集被许多用户使用，在jobHistory / HistoryServer中发现我的工作需要花费大量时间。

有没有办法配置spark-submit来返回applicationId？

注意：我发现了许多类似的问题，但他们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索applicationId，如果master yarn and deploy-mode cluster，驱动程序也作为mapreduce作业的一部分运行，则打印任何日志或sysout到远程主机日志。

1 个答案:

答案 0 :(得分：0)

以下是我用来实现这一目标的方法：

将应用程序ID保存到HDFS文件。（@zhangtong在评论中提出建议。）
从驱动程序发送带有applictionId的电子邮件提醒。