调试不平衡的kafka message_in rate

时间:2018-04-02 08:17:00

标签: apache-kafka datadog

我的生产中有一个4节点kafka集群,我们使用自定义分区程序来执行id的mod 64来确定分区。自上周以来,我们的一个节点上的kafka messages_in率已经出现不平衡,如附图enter image description here所示。粉色线显示kafka01节点上的消息,蓝黄色线显示所有其他3个盒子上的消息。我正在使用datadog进行监控并使用度量标准kafka.messages_in.rate。假设id分布没有变化,则消息的分配应该没有变化。我调试此问题的步骤是

  1. 群集与4个节点中的每个节点上的16个领导者保持平衡。
  2. ISR在4个盒子中也是平衡的,每个盒子具有32个ISR [复制因子2]
  3. 所有4个方框的网络输入和输出几乎相同。
  4. 请求任何帮助或区域/指标,以调试此异常。

    对于将来正在寻找此事的人 https://mail-archives.apache.org/mod_mbox/kafka-users/201710.mbox/%3CCALaekbwkSKapqPwsyuAoHGiSnc1+3jF2wF+2FDZbAVx61E+c2w@mail.gmail.com%3E

1 个答案:

答案 0 :(得分:1)

要调试的东西很少

  • 启用代理日志以跟踪
  • 比较一个接收更多请求的日志和一次短时间内接收较少请求的日志,这将有足够的产生请求进行分析以进行比较
  • 在日志中搜索ProducerRequest,它会告诉您是否按预期进行分区,并提供有关从哪个主机接收更多请求的信息。