标签: apache-kafka spark-streaming checkpointing
我正在写一篇来自Kafka的Spark Streaming应用程序。为了拥有一个语义,我想使用直接Kafka流并使用Spark Streaming本地检查点。
问题在于,检查点实际上不可能保留代码:如果你改变了某些东西,你就会丢失检查点数据,因此你几乎不得不从卡夫卡读取两次消息。我想避免它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还没能做到。有人能告诉我如何通过检查点文件夹阅读有关上次处理的Kafka偏移量的信息吗?
谢谢你, 马可