我的代码如下所示
def process(time, rdd):
# do something with "previous_batch"
df = df.cache().checkpoint()
df.createOrReplaceTempView("previous_batch")
del df
stream.foreachRDD(process)
我使用此方法访问上一批中的数据框。这在单节点独立群集上运行,因此检查点目录设置为/ tmp。我预计Spark会在一段时间后自动删除检查点文件。但没有检查点文件被删除。我无法弄清楚如何清理检查点目录。否则,磁盘运行很长时间后会耗尽空间。 我应该自己运行另一个进程来清理文件吗?