我们正在spark-operator的帮助下在k8s集群上运行spark。为了监控,我们使用prometheus。
我们想要配置警报,以便每当与火花作业相关的任何窗格过渡到失败状态时,我们都应收到警报。并且此警报规则应在过去5分钟内检查此类失败的吊舱。
我们尝试利用kube-state-metrics来实现此目的,但是我们无法基于时间获取指标。在任何给定的时间点,指标 kube_pod_status_phase {namespace =“ spark-operator”,phase =“ Failed”} 会向我们提供处于失败状态的所有Pod的列表。
对此有任何建议或指导。
答案 0 :(得分:0)
sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0