pyspark streaming - 检查点文件未自动清除

时间:2017-08-29 01:53:29

标签: apache-spark pyspark spark-dataframe spark-streaming

我的代码如下所示

def process(time, rdd):
    # do something with "previous_batch"
    df = df.cache().checkpoint()
    df.createOrReplaceTempView("previous_batch")
    del df

stream.foreachRDD(process)

我使用此方法访问上一批中的数据框。这在单节点独立群集上运行,因此检查点目录设置为/ tmp。我预计Spark会在一段时间后自动删除检查点文件。但没有检查点文件被删除。我无法弄清楚如何清理检查点目录。否则,磁盘运行很长时间后会耗尽空间。 我应该自己运行另一个进程来清理文件吗?

0 个答案:

没有答案