Question

我们正在spark-operator的帮助下在k8s集群上运行spark。为了监控，我们使用prometheus。

我们想要配置警报，以便每当与火花作业相关的任何窗格过渡到失败状态时，我们都应收到警报。并且此警报规则应在过去5分钟内检查此类失败的吊舱。

我们尝试利用kube-state-metrics来实现此目的，但是我们无法基于时间获取指标。在任何给定的时间点，指标 kube_pod_status_phase {namespace =“ spark-operator”，phase =“ Failed”} 会向我们提供处于失败状态的所有Pod的列表。

对此有任何建议或指导。

Answer 1

sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0

如何在k8s集群中的特定Pod进入失败状态时配置警报？

1 个答案: