在5个经纪人的Kafka集群(2.3.0
中)。
在t
时间,我们将称为brokerA
的一位经纪人倒闭了(硬件问题)而倒闭了。
在时间t + 24 hours
,我们重新启动了此brokerA
。
重新启动它后,几分钟后,我们意识到ISR集减少了很多,因此许多生产者无法生产(因为许多分区未达到min_isr
)。
这对我们的客户产生了巨大的影响,也使镜子制造商实例崩溃了(因为由于min isr而无法生产)。
我们的想法是,当我们重新启动brokerA
时,它必须赶上很多副本,并且可能会对网络带宽产生很大影响,因此使群集中的所有副本实际上无法与其他领导者同步,从而减少了许多ISR集。
我的问题:有没有一种方法可以重新启动代理,从而防止它同时从所有主题/分区中获取,就像逐步进行操作一样,以便稍微调整流量(速度缓慢..O) ,并且可能不会使网络(可能是CPU)饱和?