当我测试时,我的代码如下。
.format("kafka")
.option("kafka.bootstrap.servers","...")
.option("subscribe","...")
.option("startingOffsets", "earliest")
// .option("startingOffsets", "latest")
.load()
但是当我设置.option("startingOffsets", "latest")
时,恢复总是从查询中断的地方开始。
如何使.option("startingOffsets", "latest")
生效?
ps:我尝试删除检查点文件,但是没有用
答案 0 :(得分:0)
请参阅文档
https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html
查询开始的起点,可以是“最早”(来自最早的偏移量),“最新”(仅来自最新的偏移量),或者是为每个TopicPartition指定起始偏移量的json字符串。在json中,可使用-2作为偏移量来指代最早的,-1到最新的。注意:对于批查询,不允许最新(隐式或在json中使用-1)。对于流查询,这仅在启动新查询时适用,并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始。
对于流式查询,这仅在启动新查询时适用,并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始