Question

我们在GCP上的GKE遇到了一个奇怪的问题，如果间歇性的HTTP 500/520/525错误试图每隔6小时10分钟访问我们的API，或者需要花费几分钟，我们就会有几秒钟到一分钟，我们的日志避开＆＃ 39;给了我们很多东西。

我们的管道如下：

user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API

点击CloudFlare或GKE负载均衡器会直接显示相同的错误，因此问题似乎就在我们的GCP设置中。

在过去，我遇到CloudSQL Proxy issue，每小时更新一次SSL证书，导致非常可预测，非常短暂的中断。

GKE是否有一个类似的系统，我们可能会遇到它每6小时做一次导致这些错误的事情？

Pingdom报告：

Answer 1

问题是，内部负载平衡的2 required healthcheck IPs中只有1个被列入白名单。不确定这是如何导致错误的发条，但更新我们的防火墙规则已经停止了这个问题。希望将来帮助某人！