Kubernetes Pod通过StackDriver重新启动警报

时间:2019-06-24 20:33:57

标签: kubernetes google-kubernetes-engine stackdriver

我有一个基于stackdriver log的度量跟踪GKE pod重新启动。

如果警报数量超出预定义的阈值,我想通过电子邮件发出警报。

我不确定我需要设置什么阈值来通过堆栈驱动程序触发警报。我通过部署的服务有三个吊舱。

2 个答案:

答案 0 :(得分:1)

您应该使用日志查看器并创建过滤器:

作为资源,您应该选择GKE Cluster Operations并添加一个过滤器。

过滤器可能如下所示:

resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"

此后,通过点击Create metric按钮来创建自定义指标。

然后您可以通过单击Create alert from metric中创建的指标来Logs-based metrics

然后设置触发器,条件和阈值的配置。

关于正确的阈值,我将取过去一段时间的平均重启次数,并将其用于警报。

答案 1 :(得分:0)

GKE已经向Stackdriver发送了一个度量标准:container/restart_count。您只需要按照Managing alerting policies中所述创建警报策略。根据{{​​3}},此指标公开:

  

容器重新启动的次数。每60秒采样一次。