我正在从事Spark结构化流媒体项目,并且在chechpoint中面临一个问题。
在hdfs中,我们有25天的保留政策及其按日划分的分区,我们每天都会从hdfs中删除文件,但是在我的流媒体中,我的checkpnt文件从工作开始就保存了所有文件名,但是如果我清理了, checkpnt目录,我需要25天重新开始我的工作,因此我需要根据我的保留策略删除我的checkpnt文件,但是checkpnt中最新的.compact文件存储了所有从启动开始的文件名,请帮助我解决此问题。
答案 0 :(得分:0)
您不应手动删除检查点文件夹。在spark配置中有一个用于此的连接器: https://spark.apache.org/docs/latest/configuration.html#memory-management
spark.cleaner.referenceTracking.cleanCheckpoints
对于DStreams,还有一个cleanup
方法: