从火花流中清除检查点数据

时间:2017-11-29 19:08:26

标签: apache-spark spark-streaming

有没有办法可以清除Java Spark流应用程序编写的旧检查点数据?随着应用程序运行更长时间,检查点主管变得非常庞大。

1 个答案:

答案 0 :(得分:0)

我假设Spark版本1.6

val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")

这可以从Spark 1.4获得

https://issues.apache.org/jira/browse/SPARK-2033

此外,如果您仍在使用DStreams,则会有cleanup方法删除比输入时间最早的批次更旧的检查点文件

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/DStreamCheckpointData.scala