检查点无法使用火花流

时间:2015-12-23 13:49:46

标签: apache-spark spark-streaming checkpoint

我们将数据文件放在HDFS路径中,该路径由spark streaming应用程序监控。并且火花流应用程序将数据发送到kafka主题。我们正在停止流媒体应用程序吗?在它之间再次启动它应该从它停止的地方开始。但它正在再次处理整个输入数据文件。所以我认为检查点没有被正确使用。我们正在使用spark 1.4.1版本 我们如何才能使流应用程序从失败/停止的位置开始? 提前谢谢。

1 个答案:

答案 0 :(得分:0)

创建上下文时,使用getOfCreate(checkpoint,..)加载以前的检查点数据(如果有)。

例如:JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDir,..)

检查正在运行的示例程序https://github.com/atulsm/Test_Projects/blob/master/src/spark/StreamingKafkaRecoverableDirectEvent.java