Kafka Connect Sink(GCS)仅从最新的偏移量读取,配置为最早读取?

时间:2019-08-05 22:47:40

标签: apache-kafka apache-kafka-connect confluent

如上所述,我目前正在设置一个Kafka Connect接收器,以将数据从Kafka接收到Google Cloud Storage。

一切进展顺利,但是-仅使用最新的可用偏移量。也就是说,一旦开始运行,它只会将新产生的消息发送到GCS,而不会将来自Kafka的现有消息发送到GCS。我尝试删除kafka connect storage / offset主题,创建新的连接器名称,等等。但是,它总是从最新的偏移量开始。

是否仍然可以为Kafka Connect GCS Sink配置最早的偏移量?我还没有看到任何配置可以处理此问题

https://docs.confluent.io/current/connect/kafka-connect-gcs/configuration_options.html

https://docs.confluent.io/current/connect/references/allconfigs.html

我尝试删除任何kafka connect主题/文件存储,以及以新的连接器名称开头

我看到连接器启动后产生的Kafka Connect接收器消息。

我希望/需要消息从最早的可用偏移量中吸收,即。如果没有为连接器提交偏移量,则从最早的消息开始

1 个答案:

答案 0 :(得分:0)

首次创建连接器时,默认情况下将使用earliest偏移量。您应该在Connect worker日志中看到以下内容:

[2019-08-05 23:31:35,405] INFO ConsumerConfig values:
        allow.auto.create.topics = true
        auto.commit.interval.ms = 5000
        auto.offset.reset = earliest
…

您可以通过更改Worker配置中的consumer.auto.offset.reset来覆盖它。

删除连接器并重新创建它时,偏移量将保留并重新使用。

如果使用名称​​ new 创建连接器,则默认情况下它将使用在connect worker(earliest)中设置的偏移量。