KAFKA集团协调员失败恢复0.11.0.1

时间:2017-10-18 19:14:28

标签: apache-kafka

是否有任何配置可以在崩溃后启用自动组协调器恢复?

我有一个包含3个代理的测试拓扑,一旦组协调器关闭,主题分区(rf = 2的2个分区)得到正确平衡,生产者不受影响,但消费者组停止接收消息。如果我选择任何其他经纪人,一切都按预期工作。

为生产者和客户使用JAVA API Kafka Clients 0.10.2.1

<dependency>
   <groupId>org.apache.kafka</groupId>
   <artifactId>kafka-clients</artifactId>
   <version>0.10.2.1</version>
</dependency>

监视仍在运行的每个代理的控制台输出,我找不到任何新的GroupCoordinator分配的引用。所有消费者在我启动原始组协调员经纪人后立即恢复接收消息。选择为协调员的经纪人始终是broker.id = 0,无论启动顺序如何。

客户端配置:

private static Consumer<String, String> createFixMessageConsumer(int id) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093,localhost:9094");
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true");
        props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");
        props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, "6100");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, MYCONSUMERGROUP);
        props.put(ConsumerConfig.CLIENT_ID_CONFIG, id + "");
        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "latest");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());     
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        return new KafkaConsumer<>(props, new StringDeserializer(), new FixMessageDeserializer());
    }

Consumer Worker片段:

    @Override
    public void run() {
        try {
            consumer.subscribe(topics);

            while (true) {
                ConsumerRecords<String, FixMessage> records = consumer.poll(2000);
                FixMessage message = null;
                for (ConsumerRecord<String, FixMessage> record : records) {
                    message = record.value();
                    message.setConsumerId(id);
                    message.setKafkaPartition(record.partition());
                    message.setPartitionOffset(BigInteger.valueOf(record.offset()));
                    Map<String, Object> data = new HashMap<>();
                    data.put("partition", record.partition());
                    data.put("offset", record.offset());
                    if(message.getIdfixMessage() == null)
                        createFixMessage(message, data);
                    data.put("value", message.getIdfixMessage());
                    System.out.println(this.id + ": " + data);
                }
            }
      } catch (WakeupException e) {
        // ignore for shutdown 
      } catch(Exception e) {
          System.out.println(e.toString());
      } finally {
        consumer.close();
      }
    }

2 个答案:

答案 0 :(得分:3)

确保主题__consumer_offsets的复制因子大于1。在0.11.0.0之前,不会强制执行代理端参数default.replication.factor,因此很可能此内部主题的rf小于您设置的default.replication.factor

答案 1 :(得分:1)

我和Kafka 2.11-1.0.0有同样的问题。也就是说,在消费时,如果消费者组协调员所在的经纪人关闭,则新的协调员未被发现。因此,消息消费完全停止,尽管生产商能够不断向新当选的领导者提供产品(新当选的领导者在图片中,因为其中一个分区正在关闭关闭经纪人,但它被自动重新分配给其中一个ISR)。将内部主题__consumer_offsets的复制因子更新为3(我有3个代理的集群)后,消费者组协调器的自动故障转移开始发生。在自动发现新的使用者组协调器之后,所有成功生成的消息都被消耗掉了。要为内部主题__consumer_offsets增加RF,请参阅:http://kafka.apache.org/documentation.html#basic_ops_increase_replication_factor