Java + Spark - 临时文件夹未被清除

时间:2018-01-19 12:49:44

标签: java apache-spark mapr

我们在项目中使用Spark + Java,正在使用的Hadoop发行版是MapR。

在我们的Spark作业中,我们保留数据(在磁盘级别)。

作业完成后,/ tmp /文件夹中有很多临时数据。 在作业执行完成后,我们如何确保/ tmp / folder(临时数据)变空。

我在下面找到了一个链接: Apache Spark does not delete temporary directories

但不确定如何设置以下属性:

  • spark.worker.cleanup.enabled

  • spark.worker.cleanup.interval

  • spark.worker.cleanup.appDataTtl

此外,在哪里设置这些属性: 1.在代码中 或者2.在火花配置中

我们使用spark-submit命令以群集模式(使用master yarn)运行作业。

由于 Anuj

1 个答案:

答案 0 :(得分:0)

  1. 创建spark-env.sh文件的备份。 在文本编辑器(例如vi)中打开文件,然后找到" SPARK_WORKER_OPTS"

  2. 在此行的下方,添加或更新:SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"

  3. 这应该可以启用工作日志清理,并且保留日志的时间不会超过48小时,默认检查时间为每30分钟一次。

  4. 重启Spark并完成!