清晰的偏移量引发来自Kafka的结构化流

时间:2019-10-14 05:12:28

标签: apache-spark apache-kafka spark-structured-streaming

当我测试时,我的代码如下。

    .format("kafka")
    .option("kafka.bootstrap.servers","...")
    .option("subscribe","...")
    .option("startingOffsets", "earliest")
//    .option("startingOffsets", "latest")
    .load()

但是当我设置.option("startingOffsets", "latest")时,恢复总是从查询中断的地方开始。 如何使.option("startingOffsets", "latest")生效?

ps:我尝试删除检查点文件,但是没有用

1 个答案:

答案 0 :(得分:0)

请参阅文档

  

https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html

查询开始的起点,可以是“最早”(来自最早的偏移量),“最新”(仅来自最新的偏移量),或者是为每个TopicPartition指定起始偏移量的json字符串。在json中,可使用-2作为偏移量来指代最早的,-1到最新的。注意:对于批查询,不允许最新(隐式或在json中使用-1)。对于流查询,这仅在启动新查询时适用,并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始。

  

对于流式查询,这仅在启动新查询时适用,并且恢复将始终从查询中断的地方开始。查询期间新发现的分区最早将开始