如何防止Spark流作业的eventLog文件占用空间?

时间:2016-05-12 00:47:26

标签: apache-spark

我们有多个永不运行的流媒体作业,可以生成巨大的eventLogs。在达到max age config(spark.history.fs.cleaner.maxAge)之前,不会删除这些正在进行的日志。

根据Spark源代码,“只删除早于指定最大年龄的已完成应用程序”。 https://github.com/apache/spark/blob/a45647746d1efb90cb8bc142c2ef110a0db9bc9f/core/src/main/scala/org/apache/spark/deploy/history/FsHistoryProvider.scala

因此,正在进行的eventLog将永远不会在完成之前删除,并且它们占用空间。有人知道如何预防吗?

我们有像脚本这样的选项会定期删除旧文件,但这将是我们的最后手段,我们无法修改源代码,只能进行配置。

0 个答案:

没有答案