存储DStream,检查点,坚持?

时间:2018-05-07 08:06:53

标签: java apache-kafka spark-streaming

我是火花流程编程的新手。 如何显示结果并存储它,然后新结果取决于新的DStream和旧的结果。 spark版本= 1.6.0 kafka版本2.10和java

请帮忙。

1 个答案:

答案 0 :(得分:0)

您可以使用persist()方法将中间结果保存在内存或磁盘上,具体取决于数据量。这可以在下一个dstream处理中访问。 检查点用于在流式作业重新启动时从故障点重新启动作业.Spark默认检查点跟踪上次成功读取的kafka消息并保存偏移量。但它确实有一个错误,直到2.2版本的spark它将重新处理在重新启动时再次成功进行dstream批处理。请参阅下面的spark文档。 https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--persistence