应用错误收集

需要在alertrule.yaml.j2中编写一个expr，以便在给定的时间范围（10分钟）内出现超过50％的故障时生成警报。失败是通过指标来衡量的：metric_Failures {name =“ \” EndpointA \“”} 按指标衡量的请求总数：metric_total {name =“ \” EndpointA \“”}

alertrule.yaml.j2：

- name: prometheusAlertRules
  rules:
  - alert: failure_alert
    expr: "round(metric_Failures{ name=\"{{"}}EndpointA{{"}}\" {{ '}' }} [10m] / metric_total{ name=\"{{"}}EndpointA{{"}}\" {{ '}' }} [10m])  > 0.50"
    for: 3m
    labels:
      service: '{{ '{{' }} $labels.application {{ '}}' }}'
      severity: critical
      value: '{{ '{{' }} $value {{ '}}' }}'

它不会生成预期的警报数量！不确定expr的错误是什么，因为它是新的。

jinja模板中的expr以在prometheus中生成有效的警报计数

0 个答案: