结构化流式传输kafka驱动程序重新启动失败,HDFS文件重命名错误,因为新名称文件已存在

时间:2017-02-04 02:01:13

标签: hdfs apache-kafka spark-streaming

我们正在使用Spark 2.1中的结构化流测试重新启动和故障转移。

我们有一个精简的kafka结构化流媒体驱动程序,只执行事件计数。当我们第二次正常重新启动驱动程序时(即使用yarn应用程序杀死驱动程序-kill并使用相同的检查点目录重新提交),驱动程序因为无法在HDFS中提交状态的作业中止而失败,如下所示:

“无法将/ user / spark / checkpoints / StructuredStreamingSignalCount / ss_signal_count / state / 0/11 / temp-1769618528278028159重命名为/user/spark/checkpoints/StructuredStreamingSignalCount/ss_signal_count/state/0/11/128.delta”< / p>

当我查看HDFS时,错误之前已经存在128.delta。当目标文件名已经存在并且使用rename命令时,HDFS基本上不允许重命名。非常感谢任何见解!

我们正在使用: 火花2.1.0 HDFS / YARN 2.7.3 卡夫卡0.10.1

合剂

1 个答案:

答案 0 :(得分:0)

在重命名前未删除状态文件的错误: https://issues.apache.org/jira/browse/SPARK-19677