我在群集(Spark 1.6)上运行Spark Streaming作业,该检查点到S3。当我最初开始工作时,我可以看到" Streaming"标签。但是,当我从检查点重新启动作业时,Streaming选项卡将消失。该作业仍然作为流作业工作,我看到批次出现在配置的批处理间隔。见下文。
如果我清除检查点数据,则会返回选项卡。我怀疑从检查点重新启动时没有正确注册Streaming选项卡。
我看了Spark Streaming code。当从检查点反序列化应用程序状态时,是否可能不调用此流程?
有谁知道如何解决这个问题?
答案 0 :(得分:2)
如果我清除检查点数据,则会返回选项卡。我怀疑 从a重新启动时,Streaming选项卡未正确注册 检查点。
调用它,但直到完成从S3检查点位置加载所有数据后才会显示流式选项卡。如果您的血统很长,可能需要一些时间来加载。从检查点恢复所有数据后,您将看到流式传输选项卡。