从检查点重新启动后,Spark流式传输选项卡消失

时间:2016-04-18 11:34:34

标签: scala apache-spark spark-streaming

我在群集(Spark 1.6)上运行Spark Streaming作业,该检查点到S3。当我最初开始工作时,我可以看到" Streaming"标签。但是,当我从检查点重新启动作业时,Streaming选项卡将消失。该作业仍然作为流作业工作,我看到批次出现在配置的批处理间隔。见下文。

Snapshot

如果我清除检查点数据,则会返回选项卡。我怀疑从检查点重新启动时没有正确注册Streaming选项卡。

我看了Spark Streaming code。当从检查点反序列化应用程序状态时,是否可能不调用此流程?

有谁知道如何解决这个问题?

1 个答案:

答案 0 :(得分:2)

  

如果我清除检查点数据,则会返回选项卡。我怀疑   从a重新启动时,Streaming选项卡未正确注册   检查点。

调用它,但直到完成从S3检查点位置加载所有数据后才会显示流式选项卡。如果您的血统很长,可能需要一些时间来加载。从检查点恢复所有数据后,您将看到流式传输选项卡。