在EMR中长时间运行的Spark应用程序上运行的每个作业是否可以安全地删除HDFS / tmp?

时间:2019-06-21 20:17:08

标签: apache-spark hdfs amazon-emr

我有一个EMR集群,它将通过引导操作执行长时间运行的Spark应用程序。该应用程序将连续处理Spark作业请求,并且如果我重新使用Spark上下文,我想确保在两次运行之间清除任何状态。

目前,我唯一要做的清理工作就是删除检查点目录(以删除旧的检查点文件),以防Spark在作业中进行任何检查点操作,并删除SparkSession.catalog().clearCache()

我想知道是否可以安全删除/ tmp下HDFS中的所有内容以及当前的清理工作?

0 个答案:

没有答案