需要在alertrule.yaml.j2中编写一个expr,以便在给定的时间范围(10分钟)内出现超过50%的故障时生成警报。 失败是通过指标来衡量的:metric_Failures {name =“ \” EndpointA \“”} 按指标衡量的请求总数:metric_total {name =“ \” EndpointA \“”}
alertrule.yaml.j2:
- name: prometheusAlertRules
rules:
- alert: failure_alert
expr: "round(metric_Failures{ name=\"{{"}}EndpointA{{"}}\" {{ '}' }} [10m] / metric_total{ name=\"{{"}}EndpointA{{"}}\" {{ '}' }} [10m]) > 0.50"
for: 3m
labels:
service: '{{ '{{' }} $labels.application {{ '}}' }}'
severity: critical
value: '{{ '{{' }} $value {{ '}}' }}'
它不会生成预期的警报数量! 不确定expr的错误是什么,因为它是新的。