我们通过绘制每个主题和分区的消耗率曲线来监控kafka消费者的prometheus和grafana。我们注意到由于某些错误,某个分区的使用者可能会停止工作。如果有一些函数可以计算正在消耗的不同分区的数量(作为标签值),那么添加警报会很方便。
更新
我们有这样的时间序列:
consume_rate_count{topic="my-kafka-topic",partition="0"} 320 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="1"} 316 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="2"} 331 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="3"} 322 1495164869031
我们正在寻找获得正消耗率的不同分区计数的方法。因此,如果我们获得以下数据,将触发警报,因为我们总共有4个分区,但只有3个正在被消耗。
consume_rate_count{topic="my-kafka-topic",partition="0"} 320 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="1"} 316 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="2"} 0 1495164869031
consume_rate_count{topic="my-kafka-topic",partition="3"} 322 1495164869031
答案 0 :(得分:0)
consume_rate_count == 0
会这样做。