我突然在生产Kafka中遇到类型异常
ERROR[pool-XX-thread-YY] org.apache.kafka.clients.consumer.internals.ConsumerCoordinator - [Consumer clientId=someclientid, groupId=somegroup] Offset commit failed on partition SomeTopic-SomePartition at offset SomeOffset: The request timed out.
这发生了3.5秒,原因是许多不同的服务(客户端)(不同的线程\不同的主题\不同的分区),而不仅仅是自我修复... 所有这些客户端的偏移提交配置为5秒自动提交。
除了在心跳失败时正常的一组重新平衡权(十个问题中有一个)之外,无法跟踪kafka代理日志的任何内容,在指标服务器中,我可以看到一些提交峰值延迟,这是我猜想的症状,并且1个代理(总共3个)中出现了一些TCP峰值
如何开始调查?什么会引起这样的问题?这样的事情发生时我应该去哪里看?
在此处附加一些图形的照片:
TCP Spike in server-3: https://i.stack.imgur.com/fuV2r.png
Commit latency spike: https://i.stack.imgur.com/8nFs8.png
Group syncs: https://i.stack.imgur.com/glNZ5.png
Heartbeats: https://i.stack.imgur.com/iS5ic.png