Spark Streaming清理RDD检查点目录

时间:2017-07-18 21:02:48

标签: apache-spark hdfs spark-streaming

我们有来自kafka的火花流在HDFS服务器中创建检查点并且没有得到清理。现在我们在HDFS中有数百万个检查点。有没有办法从火花中自动清除它?

Spark版本1.6 HDFS 2.70

There  are other random directories other than checkpoints which is not been cleared

1 个答案:

答案 0 :(得分:3)

val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")

不应对所有检查点自动进行清理,因此必须将它们保存在spark调用之间。由于Spark Streaming将中间状态数据集保存为检查点,并依赖它们从驱动程序故障中恢复。