Spark临时文件不会自动删除

时间:2019-01-31 02:19:38

标签: apache-spark hadoop

我有火花纱客户端提交作业,执行该操作时,它将在我的“ spark.local.dir”下创建一个目录,其中包含以下文件:

__spark_conf__8681611713144350374.zip
__spark_libs__4985837356751625488.zip

有没有一种方法可以自动清除它们?每当我提交火花作业时,我都会在同一文件夹中再次看到这些条目的新条目。这将淹没我的目录,我应该设置什么以使其自动清除?

即使在SO上,我也在线查看了几个链接,但找不到解决此问题的方法。我发现的是一种通过以下方式指定目录路径的方法 “ spark.local.dir”。

1 个答案:

答案 0 :(得分:0)

存在三个SPARK_WORKER_OPTS以支持工作程序应用程序文件夹的清理,复制到此处以供进一步参考:来自Spark Doc

  1. spark.worker.cleanup.enabled,默认值为false,启用对工作程序/应用程序目录的定期清理。请注意,这仅影响独立模式,因为YARN的工作原理不同。只会清除已停止的应用程序的目录。

  2. spark.worker.cleanup.interval,默认值为1800,即30分钟,控制工人清理本地计算机上旧应用程序工作目录的时间间隔(以秒为单位)。

  3. spark.worker.cleanup.appDataTtl,默认值为7 * 24 * 3600(7天),每个工作人员上保留应用程序工作目录的秒数。这是生存时间,应取决于您拥有的可用磁盘空间量。应用程序日志和jars被下载到每个应用程序工作目录。随着时间的推移,工作目录会迅速填满磁盘空间,尤其是如果您非常频繁地运行作业时。