DisconnectException破坏了整个kafka群集

时间:2019-02-14 06:45:51

标签: apache-kafka

其中一个kafka代理发生断开连接异常导致整个集群瘫痪

  

connect-prod | 2019-02-14 06:28:54,885信息|| [Consumer clientId = consumer-3,groupId = 4]将提取请求(sessionId = 1727876188,时代= INITIAL)发送到节点2时出错:org.apache.kafka.common.errors.DisconnectException。 [org.apache.kafka.clients.FetchSessionHandler]   连接产品| 2019-02-14 06:28:55,448信息|| [Consumer clientId = consumer-1,groupId = 4]将提取请求(sessionId = 1379896198,epoch = INITIAL)发送到节点2时出错:org.apache.kafka.common.errors.DisconnectException。 [org.apache.kafka.clients.FetchSessionHandler]

此错误破坏了整个群集。在我故意停止经纪人之前,它不会出现。如果我们将所有主题的复制设置为2,卡夫卡不应该处理1个经纪人问题吗?

我们的一位经纪人刚断开连接,我们所有的生产者和消费者都停了下来,抛出了上面显示的异常。

使用者方面的错误:

enter image description here

代理断开连接时发生错误:

enter image description here

流配置: enter image description here

流代码:https://codeshare.io/Gq6pLB

server.properties:https://codeshare.io/G73ggn

编辑:

我以为我通过将处理保证更改为at_least_once来解决此问题,但似乎并没有解决问题,只是将其延迟了几天。我再次看到了问题,但是这次我没有看到交易问题,而只是断开连接问题。

也许是其他原因!!

这真令人沮丧。

编辑3:

进一步研究之后,我们发现真正的问题是故障代理中处于CLOSE WAIT状态的tcp连接太多。

我仍然不知道背后的原因。

  

tcp6 27 0 172.31.10.143:9092 172.31.0.47:45138已建立-
  tcp6 25 0 172.31.10.143:9092 172.31.46.69:41612 CLOSE_WAIT-
  tcp6 25 0 172.31.10.143:9092 172.31.0.47:45010 CLOSE_WAIT-
  tcp6 25 0 172.31.10.143:9092 172.31.46.69:43000 CLOSE_WAIT-
  tcp6 194 0 172.31.10.143:8080 172.31.20.219:45952 CLOSE_WAIT-
  tcp6 25 0 172.31.10.143:9092 172.31.20.219:48006 CLOSE_WAIT-
  tcp6 1 0 172.31.10.143:9092 172.31.0.47:44582 CLOSE_WAIT-
  tcp6 25 0 172.31.10.143:9092 172.31.46.69:42828 CLOSE_WAIT-
  tcp6 25 0 172.31.10.143:9092 172.31.46.69:41934 CLOSE_WAIT-   tcp6 25 0 172.31.10.143:9092 172.31.46.69:41758 CLOSE_WAIT-   tcp6 25 0 172.31.10.143:9092 172.31.46.69:41584 CLOSE_WAIT-   tcp6 25 0 172.31.10.143:9092 172.31.46.69:41852 CLOSE_WAIT-   tcp6 1 0 172.31.10.143:9092 172.31.0.47:44342 CLOSE_WAIT-

0 个答案:

没有答案