标签: apache-spark hdfs amazon-emr
我有一个EMR集群,它将通过引导操作执行长时间运行的Spark应用程序。该应用程序将连续处理Spark作业请求,并且如果我重新使用Spark上下文,我想确保在两次运行之间清除任何状态。
目前,我唯一要做的清理工作就是删除检查点目录(以删除旧的检查点文件),以防Spark在作业中进行任何检查点操作,并删除SparkSession.catalog().clearCache()。
SparkSession.catalog().clearCache()
我想知道是否可以安全删除/ tmp下HDFS中的所有内容以及当前的清理工作?