当我使用带主纱和部署模式群集的spark-submit提交spark作业时,它不会打印/返回任何applicationId,一旦作业完成,我必须手动检查MapReduce jobHistory或spark HistoryServer以获取作业详细信息。
我的群集被许多用户使用,在jobHistory / HistoryServer中发现我的工作需要花费大量时间。
有没有办法配置spark-submit
来返回applicationId?
注意:我发现了许多类似的问题,但他们的解决方案使用sparkcontext.applicationId
在驱动程序代码中检索applicationId,如果master yarn and deploy-mode cluster
,驱动程序也作为mapreduce作业的一部分运行,则打印任何日志或sysout到远程主机日志。
答案 0 :(得分:0)
以下是我用来实现这一目标的方法: