我正在为Kafka构建警报监控工具。
我确实知道,某些指标的阈值取决于应用程序数据。但是我只想知道那些度量标准和阈值,这将有助于我了解延迟并有助于确定是否需要任何缩放比例。
到目前为止,我可以执行以下操作:
接下来,我研究并发现了很多指标,但是没有一个完整的阈值(例如,一些值或模式,例如增加或减少,或者可能是一些数学运算),我应该在这些阈值上写下我的度量逻辑。
以下是几个示例:
UnderReplicatedPartitions-如果值大于0,则发出警报。
records-lag-max-如果值随时间增加,则发出警报。
OfflinePartitionsCount-如果值大于零,则发出警报
ActiveControllerCount-如果值不是1,则发出警报。