标签: apache-spark apache-kafka spark-structured-streaming
我正在使用一个startingOffsets设置为earliest的Kafka主题。群集的保留期为48小时。显然,当查询第一次运行(没有检查点)时,它将从最早的偏移量开始。如果该应用程序在处理所有当前记录之前就被杀死了,它会从上次中断的位置重新开始,还是最早的偏移量开始? 即在处理第一个批次(非常大且非常耗时)的过程中是否发生检查点?
startingOffsets
earliest