卡夫卡经纪人不断ISR萎缩和扩张?

时间:2017-02-21 10:07:45

标签: apache-kafka

我们有一个由4个节点组成的集群。我们观察到其中一个 节点遇到了不断缩小和扩展ISR的情况 超过1小时,直到经纪人被退回才能恢复。

[2017-02-21 14:52:16,518] INFO Partition [skynet-large-stage,5] on broker 0: Shrinking ISR for partition [skynet-large-stage,5] from 2,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,543] INFO Partition [skynet-large-stage,37] on broker 0: Shrinking ISR for partition [skynet-large-stage,37] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,544] INFO Partition [skynet-large-stage,13] on broker 0: Shrinking ISR for partition [skynet-large-stage,13] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,545] INFO Partition [__consumer_offsets,46] on broker 0: Shrinking ISR for partition [__consumer_offsets,46] from 3,2,0 to 3,0 (kafka.cluster.Partition)
.
.

我想知道导致这个问题的原因以及为什么破碎的经纪人没有被赶出ISR。

Kafka版本为0.10.1.0

1 个答案:

答案 0 :(得分:3)

KAFKA-4477中的一个错误已得到修复,但是总的来说,当与一些动物园管理员节点对话时,Kafka经纪人超时(默认值为6000ms超时)时,我看到了相同的问题,在这一点上,他们被踢出集群,分区领导层变更,客户不得不重新平衡,等等。对于高容量集群,这是一个痛苦。

仅仅增加这个超时时间对我有很多帮助:

 zookeeper.session.timeout.ms

根据官方文档,默认值为6000ms。我发现只是将其增加到15000ms会使簇变得坚如磐​​石。

0.11.0 Kafka版本的文档:https://kafka.apache.org/0110/documentation.html