阅读Spark Streaming检查点数据

时间:2016-09-16 08:11:15

标签: apache-kafka spark-streaming checkpointing

我正在写一篇来自Kafka的Spark Streaming应用程序。为了拥有一个语义,我想使用直接Kafka流并使用Spark Streaming本地检查点。

问题在于,检查点实际上不可能保留代码:如果你改变了某些东西,你就会丢失检查点数据,因此你几乎不得不从卡夫卡读取两次消息。我想避免它。

因此,我试图自己读取检查点目录中的数据,但到目前为止我还没能做到。有人能告诉我如何通过检查点文件夹阅读有关上次处理的Kafka偏移量的信息吗?

谢谢你, 马可

0 个答案:

没有答案