对于Prometheus中的警报,我具有以下表达式:
absent_over_time(node_filesystem_size_bytes{device=~"/dev/nvme.*"}[5m]) > 0
据我所知,如果在最近5分钟内没有针对/ dev / nvme *的指标,则该值为> 0。
但是,我希望考虑到运行它的instance
。也就是说,如果任何实例(最好带有标签说明哪个实例)在最近5分钟内缺少此指标,则我希望触发此事件。我假设如果成功刮除一个节点,这种情况将不再成立。
instance
指标上有一个node_filesystem_size_bytes
标签,但是如果缺少该指标,我不确定它如何检测到。
我是否需要以某种方式获取当前instance
的列表并将其与node_filesystem_size_bytes
结合在一起以完成此操作?还是有其他方法?
这是在Kubernetes集群中使用node-exporter和kube-prometheus-stack。