偶尔不清除HDFS上的.sparkStaging目录

时间:2019-08-25 14:18:33

标签: apache-spark pyspark hdfs yarn

我们正在使用--master yarn --deploy-mode集群执行火花提交。

我们注意到有关.sparkStaging目录的一些奇怪行为。

大多数应用程序完成运行后将被删除。 但是,某些应用程序仍保留在那里,目录为空,或者有一些不完整的jar(通常需要更多)。

这些应用程序ID未显示在YARN资源管理器日志或UI中,也未显示在Spark历史记录服务器或我认为可以查看的任何日志中。 它们仅出现在此目录中,不会像其他应用程序一样被删除。

此类应用程序的最后一个日志条目通常是:

foreach(var item in orderedList){
   // Do something with item
}

在正常的应用程序运行中,在此日志条目之后,资源被上传到HDFS到.sparkStaging目录,然后提交应用程序,等等。

我怀疑在这种情况下上载过程可能存在问题,但是即使如此,为什么一段时间后仍未删除目录?

0 个答案:

没有答案