如何解决GKE长时间停播的问题?

时间:2019-10-24 15:42:36

标签: google-cloud-platform google-kubernetes-engine kubernetes-helm

使用helm upgrade --install时,我经常遇到超时问题。我得到的错误是:

UPGRADE FAILED
Error: timed out waiting for the condition
ROLLING BACK

如果我查看GCP上的GKE群集日志,就会发现发生这种情况是因为执行此步骤需要花费非常长的时间:

Killing container with id docker://{container-name}:Need to kill Pod

我已经看到它的范围从几秒钟到9分钟。如果我进入日志消息的元数据以查找特定的容器并查看其日志,则其中没有任何内容表明该容器与快速终止的容器之间存在差异。

关于如何继续排除故障的任何建议?

1 个答案:

答案 0 :(得分:0)

您可以参考 this 疑难解答指南,了解与Google Kubernetes Engine相关的一般问题。

如此处所述,您可能需要使用“ Troubleshooting Application”指南来进一步debugging应用程序容器或其控制器对象。

我假设您检查了位于相应吊舱中的容器的日志(1)或described(2)(请查看终止原因),使用下面的命令。如果没有,您也可以尝试这些以获取更多有价值的信息。

1. kubectl logs POD_NAME -c CONTAINER_NAME -p
2. kubectl describe pods POD_NAME

注意:我在github.com上看到了一个有关头盔升级失败的similar讨论线程。您也可以在那边看看。