Question

我在kubernetes（GKE）上运行了一个非常简单的烧瓶应用程序。 pod拥有相当大的流量（60req / s + - ），并且它们在自动缩放组下运行，最少4个活动，最多10个。

每4-5小时，活体探测开始失败，所有pod重新启动。我有时会发现我的吊舱在一夜之间重新启动了11-12次。当我描述pod时，我得到了同样的错误：

Liveness probe failed: Get http://10.12.5.23:5000/_status/healthz/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

所有pod都具有相同的重启次数，因此它不是加载问题（我也有自动扩展）。

_status/healthz/端点非常简单：

@app.route('/')
@app.route('/_status/healthz/')
def healthz():
    return jsonify({
        "success": True
    })

我在这个应用程序上有另一个路由连接到mysql并验证一些数据。我有相同的应用程序分布在数字海洋液滴上运行数月的高负载没有问题。

我似乎无法找出为什么活动检查会开始失败一次并且我的吊舱重新启动。

分配的资源也很不错，与我在数字海洋水滴上的资源非常接近：

"resources": {
    "requests": {
        "cpu": "500m",
        "memory": "1024Mi"
    },
    "limits": {
        "cpu": "800m",
        "memory": "1024Mi"
    }
}

我使用100m为cpu限制和900m运行相同的pod。同样的结果，每隔几个小时所有pod都会重新启动。

活动设置：

"livenessProbe": {
    "initialDelaySeconds": 30,
    "httpGet": {
        "path": "/_status/healthz/",
        "port": 5000
    },
    "timeoutSeconds": 5
},

更新：添加了Readiness探测，增加了CPU =相同的结果，4个pod中的每一个都重启了7次。

Kubernetes pod一下子全部失败

0 个答案: