我们在GCP上的GKE遇到了一个奇怪的问题,如果间歇性的HTTP 500/520/525错误试图每隔6小时10分钟访问我们的API,或者需要花费几分钟,我们就会有几秒钟到一分钟,我们的日志避开&# 39;给了我们很多东西。
我们的管道如下:
user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API
点击CloudFlare或GKE负载均衡器会直接显示相同的错误,因此问题似乎就在我们的GCP设置中。
在过去,我遇到CloudSQL Proxy issue,每小时更新一次SSL证书,导致非常可预测,非常短暂的中断。
GKE是否有一个类似的系统,我们可能会遇到它每6小时做一次导致这些错误的事情?
答案 0 :(得分:1)
问题是,内部负载平衡的2 required healthcheck IPs中只有1个被列入白名单。不确定这是如何导致错误的发条,但更新我们的防火墙规则已经停止了这个问题。希望将来帮助某人!