应用错误收集

时间：2018-01-19 12:49:44

标签： java apache-spark mapr

我们在项目中使用Spark + Java，正在使用的Hadoop发行版是MapR。

在我们的Spark作业中，我们保留数据（在磁盘级别）。

作业完成后，/ tmp /文件夹中有很多临时数据。在作业执行完成后，我们如何确保/ tmp / folder（临时数据）变空。

但不确定如何设置以下属性：

此外，在哪里设置这些属性： 1.在代码中或者2.在火花配置中

我们使用spark-submit命令以群集模式（使用master yarn）运行作业。

由于 Anuj

答案 0 :(得分：0)

创建spark-env.sh文件的备份。在文本编辑器（例如vi）中打开文件，然后找到＆＃34; SPARK_WORKER_OPTS＆＃34;
在此行的下方，添加或更新：SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"
这应该可以启用工作日志清理，并且保留日志的时间不会超过48小时，默认检查时间为每30分钟一次。

重启Spark并完成！