如何在k8s集群中的特定Pod进入失败状态时配置警报?

时间:2020-07-13 15:14:07

标签: kubernetes prometheus prometheus-alertmanager prometheus-operator kube-state-metrics

我们正在spark-operator的帮助下在k8s集群上运行spark。为了监控,我们使用prometheus

我们想要配置警报,以便每当与火花作业相关的任何窗格过渡到失败状态时,我们都应收到警报。并且此警报规则应在过去5分钟内检查此类失败的吊舱。

我们尝试利用kube-state-metrics来实现此目的,但是我们无法基于时间获取指标。在任何给定的时间点,指标 kube_pod_status_phase {namespace =“ spark-operator”,phase =“ Failed”} 会向我们提供处于失败状态的所有Pod的列表。

对此有任何建议或指导。

1 个答案:

答案 0 :(得分:0)

sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0