谷歌Kubernetes Engine每6小时就像发条一样中断?

时间:2018-05-07 05:13:58

标签: kubernetes google-cloud-platform google-kubernetes-engine

我们在GCP上的GKE遇到了一个奇怪的问题,如果间歇性的HTTP 500/520/525错误试图每隔6小时10分钟访问我们的API,或者需要花费几分钟,我们就会有几秒钟到一分钟,我们的日志避开&# 39;给了我们很多东西。

我们的管道如下:

user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API

点击CloudFlare或GKE负载均衡器会直接显示相同的错误,因此问题似乎就在我们的GCP设置中。

在过去,我遇到CloudSQL Proxy issue,每小时更新一次SSL证书,导致非常可预测,非常短暂的中断。

GKE是否有一个类似的系统,我们可能会遇到它每6小时做一次导致这些错误的事情?

Pingdom报告: brief outage every 6h10m

1 个答案:

答案 0 :(得分:1)

问题是,内部负载平衡的2 required healthcheck IPs中只有1个被列入白名单。不确定这是如何导致错误的发条,但更新我们的防火墙规则已经停止了这个问题。希望将来帮助某人!