Question

我正在从事Spark结构化流媒体项目，并且在chechpoint中面临一个问题。

在hdfs中，我们有25天的保留政策及其按日划分的分区，我们每天都会从hdfs中删除文件，但是在我的流媒体中，我的checkpnt文件从工作开始就保存了所有文件名，但是如果我清理了， checkpnt目录，我需要25天重新开始我的工作，因此我需要根据我的保留策略删除我的checkpnt文件，但是checkpnt中最新的.compact文件存储了所有从启动开始的文件名，请帮助我解决此问题。

Answer 1

您不应手动删除检查点文件夹。在spark配置中有一个用于此的连接器： https://spark.apache.org/docs/latest/configuration.html#memory-management

spark.cleaner.referenceTracking.cleanCheckpoints

对于DStreams，还有一个cleanup方法：

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/DStreamCheckpointData.scala

Spark结构化的流检查点大小巨大

1 个答案: