最近,我们的一名Kafka经纪人(满分5分)被错误地关闭。现在我们再次启动它,关于损坏的索引文件有很多警告消息,并且即使24小时后,代理仍在启动。此代理中有超过400 GB的数据。
尽管其余的代理已启动并运行,但某些分区显示-1作为其领导者,而不良代理则显示为唯一的ISR。我没有看到其他副本被任命为新领导者,也许是因为不良代理是这些分区中唯一同步的代理。
Broker Properties:
Replication Factor: 3
Min In Sync Replicas: 1
我不确定该如何处理。我应该等待经纪人自己修复所有问题吗?花这么长时间是正常的吗?
我还有什么可以做的吗?请帮忙。
答案 0 :(得分:2)
异常关闭后,代理可能需要一段时间才能重新启动,因为它必须执行日志恢复。
默认情况下,Kafka在每个日志目录中仅使用一个线程来执行此恢复,因此,如果您有成千上万个分区,则可能需要数小时才能完成。
为加快速度,建议增大num.recovery.threads.per.data.dir
。您可以将其设置为CPU内核数。