我正在重启一个在HDFS中检查点的Spark流媒体作业。我故意在5分钟后杀死这个工作并重新启动它以测试恢复。一旦 ssc.start()被调用,我就会收到此错误。
INFO WriteAheadLogManager : Recovered 1 write ahead log files from hdfs://...receivedBlockMetadata
INFO WriteAheadLogManager : Reading from the logs:
Exception in thread "main" org.apache.spark.SparkException: org.apache.spark.streaming.dstream.ReducedWindowedDStream@65600fb3 has not been initialized
at org.apache.spark.streaming.dstream.DStream.isTimeValid(DStream.scala:321)
我正在使用以下方式开始工作: StreamingContext.getOrCreate(checkpointDir,...
该作业有三个窗口操作,即5分钟,1小时和1天的滑动窗口,但是工作在5分钟后停止。为了从检查点恢复工作,是否需要通过所有窗口操作来初始化最大窗口持续时间?
答案 0 :(得分:0)
我遇到了同样的问题,我删除了HDFS上的检查点路径以避免异常