结构化流设置checkpointLocation偏移复制因子

时间:2017-12-06 12:13:23

标签: apache-spark hdfs spark-structured-streaming

我正在使用Spark 2.2的结构化流媒体并运行几个长期流媒体作业。每隔一天或两天,我会遇到以下错误:

  

用户类抛出异常:org.apache.spark.sql.streaming.StreamingQueryException:无法获取块:BP-xxx:blk_xxx file = / xxx / offsets / xxx

当我遇到此错误时,作业仍然无法重新启动。我必须手动删除检查点文件。

我发现checkpointLocation下的偏移/提交文件是复制因子1.我想将复制因子更改为3将 解决这个问题。

如何将检查点偏移/提交的复制因子设置为3?

1 个答案:

答案 0 :(得分:0)

这个问题似乎是不完整的。 Spark本身无法维护复制的检查点。但是,如果要将检查点保存到HDFS,则可以通过更改hdfs-site.xml

中的以下配置来将hdfs配置为复制因子为3
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>

更新1: 偏移复制的屏幕截图:

enter image description here

提交复制的屏幕截图:

enter image description here