标签: apache-spark hdfs spark-streaming
我们有来自kafka的火花流在HDFS服务器中创建检查点并且没有得到清理。现在我们在HDFS中有数百万个检查点。有没有办法从火花中自动清除它?
Spark版本1.6 HDFS 2.70
答案 0 :(得分:3)
val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")
不应对所有检查点自动进行清理,因此必须将它们保存在spark调用之间。由于Spark Streaming将中间状态数据集保存为检查点,并依赖它们从驱动程序故障中恢复。