我们将数据文件放在HDFS路径中,该路径由spark streaming应用程序监控。并且火花流应用程序将数据发送到kafka主题。我们正在停止流媒体应用程序吗?在它之间再次启动它应该从它停止的地方开始。但它正在再次处理整个输入数据文件。所以我认为检查点没有被正确使用。我们正在使用spark 1.4.1版本 我们如何才能使流应用程序从失败/停止的位置开始? 提前谢谢。
答案 0 :(得分:0)
创建上下文时,使用getOfCreate(checkpoint,..)加载以前的检查点数据(如果有)。
例如:JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDir,..)