我们正在使用Spark 2.1中的结构化流测试重新启动和故障转移。
我们有一个精简的kafka结构化流媒体驱动程序,只执行事件计数。当我们第二次正常重新启动驱动程序时(即使用yarn应用程序杀死驱动程序-kill并使用相同的检查点目录重新提交),驱动程序因为无法在HDFS中提交状态的作业中止而失败,如下所示:
“无法将/ user / spark / checkpoints / StructuredStreamingSignalCount / ss_signal_count / state / 0/11 / temp-1769618528278028159重命名为/user/spark/checkpoints/StructuredStreamingSignalCount/ss_signal_count/state/0/11/128.delta”< / p>
当我查看HDFS时,错误之前已经存在128.delta。当目标文件名已经存在并且使用rename命令时,HDFS基本上不允许重命名。非常感谢任何见解!
我们正在使用: 火花2.1.0 HDFS / YARN 2.7.3 卡夫卡0.10.1
合剂