我有一个基于stackdriver log的度量跟踪GKE pod重新启动。
如果警报数量超出预定义的阈值,我想通过电子邮件发出警报。
我不确定我需要设置什么阈值来通过堆栈驱动程序触发警报。我通过部署的服务有三个吊舱。
答案 0 :(得分:1)
您应该使用日志查看器并创建过滤器:
作为资源,您应该选择GKE Cluster Operations
并添加一个过滤器。
过滤器可能如下所示:
resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"
此后,通过点击Create metric
按钮来创建自定义指标。
然后您可以通过单击Create alert from metric
中创建的指标来Logs-based metrics
。
然后设置触发器,条件和阈值的配置。
关于正确的阈值,我将取过去一段时间的平均重启次数,并将其用于警报。
答案 1 :(得分:0)
GKE已经向Stackdriver发送了一个度量标准:container/restart_count
。您只需要按照Managing alerting policies中所述创建警报策略。根据{{3}},此指标公开:
容器重新启动的次数。每60秒采样一次。