Camus Migration - Kafka HDFS Connect不从设置偏移量开始

时间:2018-04-15 01:55:02

标签: apache-kafka hdfs apache-kafka-connect confluent-kafka camus

我目前正在使用Confluent HDFS Sink Connector(v4.0.0)来取代Camus。我们正在处理敏感数据,因此我们需要在切换到连接器时保持偏移的一致性。

转换计划:

  1. 我们创建了hdfs sink连接器并订阅了一个写入临时hdfs文件的主题。这将创建名为 connect -
  2. 的使用者组
  3. 使用DELETE请求停止了连接器。
  4. 使用 / usr / bin / kafka-consumer-groups 脚本,我可以将连接器使用者组kafka主题分区的当前偏移设置为所需的值(即最后一次偏移Camus写了+ 1)。
  5. 当我重新启动hdfs接收器连接器时,它会继续读取上次提交的连接器偏移量并忽略设置值。我期待hdfs文件名如下: hdfs_kafka_topic_name + kafkapartition +的 Camus_offset + Camus_offset_plus_flush_size.format
  6. 我对融合连接器行为的期望是否正确?

1 个答案:

答案 0 :(得分:3)

重新启动此连接器时,它将使用文件中嵌入的偏移量将最后一个文件写入hdfs。它不会使用消费者组偏移量。它之所以这样做,是因为它使用了一个预写日志来实现一次传递到hdfs。