应用错误收集

我正在运行一些长期的Spark结构化流作业，其中包含多个并行查询和聚合，检查点存储在HDFS上。

检查点导致从HDFS进行许多读取和写入事务，从而导致大量edits_*建立在HDFS名称节点上。根据文档，在配置了交易或滚动编辑文件的阈值之后，应创建一个新图像，以允许及时删除edits_*文件。不会发生这种情况，而是会在HDFS内存已满并且安全模式打开之前导致文件堆积，从而导致结构化流作业失败。

我尝试手动运行hdfs dfsadmin -saveNamespace，但是，这需要打开安全模式，导致作业失败。

是否可以强制保存图像，以使我的结构化流作业不会失败？

如何在长时间运行的结构化流作业期间强制HDFS namenode检查点

0 个答案: