Spark结构化的流检查点大小巨大

时间:2019-12-05 17:38:48

标签: apache-spark pyspark apache-spark-sql spark-streaming spark-structured-streaming

我正在从事Spark结构化流媒体项目,并且在chechpoint中面临一个问题。

在hdfs中,我们有25天的保留政策及其按日划分的分区,我们每天都会从hdfs中删除文件,但是在我的流媒体中,我的checkpnt文件从工作开始就保存了所有文件名,但是如果我清理了, checkpnt目录,我需要25天重新开始我的工作,因此我需要根据我的保留策略删除我的checkpnt文件,但是checkpnt中最新的.compact文件存储了所有从启动开始的文件名,请帮助我解决此问题。

1 个答案:

答案 0 :(得分:0)

您不应手动删除检查点文件夹。在spark配置中有一个用于此的连接器: https://spark.apache.org/docs/latest/configuration.html#memory-management

spark.cleaner.referenceTracking.cleanCheckpoints

对于DStreams,还有一个cleanup方法:

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/DStreamCheckpointData.scala