我们在项目中使用Spark + Java,正在使用的Hadoop发行版是MapR。
在我们的Spark作业中,我们保留数据(在磁盘级别)。
作业完成后,/ tmp /文件夹中有很多临时数据。 在作业执行完成后,我们如何确保/ tmp / folder(临时数据)变空。
我在下面找到了一个链接: Apache Spark does not delete temporary directories
但不确定如何设置以下属性:
spark.worker.cleanup.enabled
spark.worker.cleanup.interval
spark.worker.cleanup.appDataTtl
此外,在哪里设置这些属性: 1.在代码中 或者2.在火花配置中
我们使用spark-submit命令以群集模式(使用master yarn)运行作业。
由于 Anuj
答案 0 :(得分:0)
创建spark-env.sh文件的备份。 在文本编辑器(例如vi)中打开文件,然后找到" SPARK_WORKER_OPTS"
在此行的下方,添加或更新:SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"
这应该可以启用工作日志清理,并且保留日志的时间不会超过48小时,默认检查时间为每30分钟一次。
重启Spark并完成!