应用错误收集

检查点无法使用火花流

时间：2015-12-23 13:49:46

标签： apache-spark spark-streaming checkpoint

我们将数据文件放在HDFS路径中，该路径由spark streaming应用程序监控。并且火花流应用程序将数据发送到kafka主题。我们正在停止流媒体应用程序吗？在它之间再次启动它应该从它停止的地方开始。但它正在再次处理整个输入数据文件。所以我认为检查点没有被正确使用。我们正在使用spark 1.4.1版本我们如何才能使流应用程序从失败/停止的位置开始？提前谢谢。

1 个答案:

答案 0 :(得分：0)

创建上下文时，使用getOfCreate（checkpoint，..）加载以前的检查点数据（如果有）。

例如：JavaStreamingContext ssc = JavaStreamingContext.getOrCreate（checkpointDir，..）

检查正在运行的示例程序https://github.com/atulsm/Test_Projects/blob/master/src/spark/StreamingKafkaRecoverableDirectEvent.java

Spark Streaming - CheckPointing问题
检查点无法使用火花流
启用了检查点的Spark Streaming中的java.io.NotSerializableException
检查Spark节点故障
检查火花流中的有状态操作员
检验点中变换函数的序列化
检查点后未使用新的spark.sql.shuffle.partitions值
修复火花结构流媒体中的检查点
了解Kakfa结构化流中的检查点
Spark结构化流式增量检查点

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？