Question

我们有一个由4个节点组成的集群。我们观察到其中一个节点遇到了不断缩小和扩展ISR的情况超过1小时，直到经纪人被退回才能恢复。

[2017-02-21 14:52:16,518] INFO Partition [skynet-large-stage,5] on broker 0: Shrinking ISR for partition [skynet-large-stage,5] from 2,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,543] INFO Partition [skynet-large-stage,37] on broker 0: Shrinking ISR for partition [skynet-large-stage,37] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,544] INFO Partition [skynet-large-stage,13] on broker 0: Shrinking ISR for partition [skynet-large-stage,13] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,545] INFO Partition [__consumer_offsets,46] on broker 0: Shrinking ISR for partition [__consumer_offsets,46] from 3,2,0 to 3,0 (kafka.cluster.Partition)
.
.

我想知道导致这个问题的原因以及为什么破碎的经纪人没有被赶出ISR。

Kafka版本为0.10.1.0

Answer 1

KAFKA-4477中的一个错误已得到修复，但是总的来说，当与一些动物园管理员节点对话时，Kafka经纪人超时（默认值为6000ms超时）时，我看到了相同的问题，在这一点上，他们被踢出集群，分区领导层变更，客户不得不重新平衡，等等。对于高容量集群，这是一个痛苦。

仅仅增加这个超时时间对我有很多帮助：

 zookeeper.session.timeout.ms

根据官方文档，默认值为6000ms。我发现只是将其增加到15000ms会使簇变得坚如磐石。

0.11.0 Kafka版本的文档：https://kafka.apache.org/0110/documentation.html

卡夫卡经纪人不断ISR萎缩和扩张？

1 个答案: