我们正在使用--master yarn --deploy-mode集群执行火花提交。
我们注意到有关.sparkStaging目录的一些奇怪行为。
大多数应用程序完成运行后将被删除。 但是,某些应用程序仍保留在那里,目录为空,或者有一些不完整的jar(通常需要更多)。
这些应用程序ID未显示在YARN资源管理器日志或UI中,也未显示在Spark历史记录服务器或我认为可以查看的任何日志中。 它们仅出现在此目录中,不会像其他应用程序一样被删除。
此类应用程序的最后一个日志条目通常是:
foreach(var item in orderedList){
// Do something with item
}
在正常的应用程序运行中,在此日志条目之后,资源被上传到HDFS到.sparkStaging目录,然后提交应用程序,等等。
我怀疑在这种情况下上载过程可能存在问题,但是即使如此,为什么一段时间后仍未删除目录?