如何在长时间运行的结构化流作业期间强制HDFS namenode检查点

时间:2019-02-01 09:32:06

标签: pyspark hdfs spark-structured-streaming

我正在运行一些长期的Spark结构化流作业,其中包含多个并行查询和聚合,检查点存储在HDFS上。

检查点导致从HDFS进行许多读取和写入事务,从而导致大量edits_*建立在HDFS名称节点上。根据文档,在配置了交易或滚动编辑文件的阈值之后,应创建一个新图像,以允许及时删除edits_*文件。不会发生这种情况,而是会在HDFS内存已满并且安全模式打开之前导致文件堆积,从而导致结构化流作业失败。

我尝试手动运行hdfs dfsadmin -saveNamespace,但是,这需要打开安全模式,导致作业失败。

是否可以强制保存图像,以使我的结构化流作业不会失败?

0 个答案:

没有答案