Kubernetes GKE错误拨号后端:随机exec命令上的EOF

时间:2018-06-20 13:42:03

标签: networking kubernetes eof google-kubernetes-engine

在GKE上,我们的API出现了一些随机错误。 许多年前,我们有“错误拨号后端:EOF”。

我们在K8上使用Jenkins来管理我们的构建。不久之前,该错误导致工作被杀死:

 "styles": [
        "styles.scss",
      ],

这种情况很像:https://gitlab.com/gitlab-org/gitlab-runner/issues/3247

许多审核日志网址:

Executing shell script inside container [protobuf] of pod [kubernetes-bad0aa993add416e80bdc1e66d1b30fc-536045ac8bbe]
java.net.ProtocolException: Expected HTTP 101 response but was '500 Internal Server Error'
    at com.squareup.okhttp.ws.WebSocketCall.createWebSocket(WebSocketCall.java:123)
    at com.squareup.okhttp.ws.WebSocketCall.access$000(WebSocketCall.java:40)
    at com.squareup.okhttp.ws.WebSocketCall$1.onResponse(WebSocketCall.java:98)
    at com.squareup.okhttp.Call$AsyncCall.execute(Call.java:177)
    at com.squareup.okhttp.internal.NamedRunnable.run(NamedRunnable.java:33)
    at 


  java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at 

 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

permission:  "io.k8s.core.v1.pods.exec.create"     
resource:  "core/v1/namespaces/default/pods/pubsub-6132c0bc-2542-46a2-8041-c865f238698d-4ccc0-c1nkz-lqg5x/exec/pubsub-6132c0bc-2542-46a2-8041-c865f238698d-4ccc0-c1nkz-lqg5x"     

但我不理解为什么Kubernetes会出现此错误...

更新

可以使用kube-state-metrics中的2个来验证这些错误: -ssh_tunnel_open_count -ssh_tunnel_open_fail_count

对我来说,打开ssh隧道失败的数量随着200 ssh隧道的打开而增加。

有关信息,我们已经对GKE进行了一些测试 -从区域到区域集群 -使用新的本机IP(旧别名IP) 但这不能解决问题。

在节点池上禁用自动缩放后,我们再也没有错误。

1 个答案:

答案 0 :(得分:0)

我可以通过停用自动缩放配置文件 optimize-utilization/将配置文件重置回默认 balanced 来解决此问题。 optimize-utilization 无论如何都处于测试状态。