我正在使用进程导出器监视进程,然后在进程使用过多CPU时发出警报。
这是我在Prometheus仪表板中的显示器CPU代码
sum(rate(namedprocess_namegroup_cpu_seconds_total{groupname=~"$processes",instance="$host", mode=~"system|user"}[20s])) by (groupname, instance)
我尝试以此编写警报(首先测试10%的CPU)
- name: process
rules:
- alert: CPUProcess
expr: sum(rate(namedprocess_namegroup_cpu_seconds_total[20s])) by (groupname, instance) > 10
for: 1m
labels:
severity: critical
annotations:
summary: "(instance {{ $labels.instance }}) use too much CPU"
description: "Process (instance {{ $labels.groupname }}) use high CPU"
但是它似乎不起作用(另一个警报可以正常工作),请给我一个建议,谢谢。
答案 0 :(得分:0)
由固定为namedprocess_namegroup_cpu_seconds_total{groupname=~".+", mode=~"system"} > 10