当GKE工作负载出现问题时,在Stackdriver中创建事件和通知

时间:2019-11-29 10:05:20

标签: monitoring google-kubernetes-engine stackdriver

我有一个gke群集,其中包含一些可能会导致启动问题的工作负载。当工作负载遇到问题时,是否可以创建一个堆栈驱动程序通知。

例如:在触发CrashLoopBackOff,吊舱不可分叉或工作负载状态为“正常”以外的任何情况下,在5分钟内创建事件。

1 个答案:

答案 0 :(得分:1)

您可以使用基于日志的指标,通过以下高级查询来跟踪Pod中所有CrashLoopBackOff状态:

https://cloud.google.com/logging/docs/view/advanced-queries

resource.type="k8s_pod"
resource.labels.location="us-central1-a"
resource.labels.cluster_name="standard-cluster-1"
"myproject"
jsonPayload.message="Back-off restarting failed container"
resource.labels.pod_name:"myproject"

无法调度的Pod可能会进入crashloopbackoff或无法部署,这只能在API服务器上进行跟踪。

我们需要考虑到要创建基于日志的指标,必须根据监控版本(无论您是具有旧版还是非旧版)来调整标签-在本示例中使用“非旧版”监控和指标

通过基于日志的指标创建指标,您将在logging/user/xxxx中找到它们

https://cloud.google.com/logging/docs/logs-based-metrics/

创建指标后,您可以创建警报策略,以在发生问题时通知您。