Question

当我测试时，我的代码如下。

    .format("kafka")
    .option("kafka.bootstrap.servers","...")
    .option("subscribe","...")
    .option("startingOffsets", "earliest")
//    .option("startingOffsets", "latest")
    .load()

但是当我设置.option("startingOffsets", "latest")时，恢复总是从查询中断的地方开始。如何使.option("startingOffsets", "latest")生效？

ps：我尝试删除检查点文件，但是没有用

Answer 1

请参阅文档

https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html

查询开始的起点，可以是“最早”（来自最早的偏移量），“最新”（仅来自最新的偏移量），或者是为每个TopicPartition指定起始偏移量的json字符串。在json中，可使用-2作为偏移量来指代最早的，-1到最新的。注意：对于批查询，不允许最新（隐式或在json中使用-1）。对于流查询，这仅在启动新查询时适用，并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始。

对于流式查询，这仅在启动新查询时适用，并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始

清晰的偏移量引发来自Kafka的结构化流

1 个答案: