如上所述,我目前正在设置一个Kafka Connect接收器,以将数据从Kafka接收到Google Cloud Storage。
一切进展顺利,但是-仅使用最新的可用偏移量。也就是说,一旦开始运行,它只会将新产生的消息发送到GCS,而不会将来自Kafka的现有消息发送到GCS。我尝试删除kafka connect storage / offset主题,创建新的连接器名称,等等。但是,它总是从最新的偏移量开始。
是否仍然可以为Kafka Connect GCS Sink配置最早的偏移量?我还没有看到任何配置可以处理此问题
https://docs.confluent.io/current/connect/kafka-connect-gcs/configuration_options.html
或
https://docs.confluent.io/current/connect/references/allconfigs.html
我尝试删除任何kafka connect主题/文件存储,以及以新的连接器名称开头
我看到连接器启动后产生的Kafka Connect接收器消息。
我希望/需要消息从最早的可用偏移量中吸收,即。如果没有为连接器提交偏移量,则从最早的消息开始
答案 0 :(得分:0)
首次创建连接器时,默认情况下将使用earliest
偏移量。您应该在Connect worker日志中看到以下内容:
[2019-08-05 23:31:35,405] INFO ConsumerConfig values:
allow.auto.create.topics = true
auto.commit.interval.ms = 5000
auto.offset.reset = earliest
…
您可以通过更改Worker配置中的consumer.auto.offset.reset
来覆盖它。
删除连接器并重新创建它时,偏移量将保留并重新使用。
如果使用名称 new 创建连接器,则默认情况下它将使用在connect worker(earliest
)中设置的偏移量。