如何在GKE中重新启动无响应的kubernetes master

时间:2016-06-29 13:10:54

标签: kubernetes google-kubernetes-engine

我们的一个GKE集群中的kubernetes主人昨晚在us-central1-a的基础设施问题后变得没有反应。

每当我跑步" kubectl得到豆荚"在默认命名空间中,我收到以下错误消息: 来自服务器的错误:服务器上的错误导致请求无法成功

如果我运行" kubectl获取pods --namespace = kube-system",我只会看到kube-proxy和fluentd-logging守护程序。

我尝试将群集缩小到0,然后再将其缩放。我也试过降级和升级集群,但这似乎只适用于节点(不是主节点)。是否有任何GKE / K8S API命令向kubernetes master发出重启?

2 个答案:

答案 0 :(得分:3)

没有一个命令允许您在GKE中重新启动Kubernetes主服务器(因为主服务器被认为是托管服务的一部分)。有自动化基础设施(然后是谷歌的oncall工程师)负责重新启动主机,如果它不健康。

在这种特殊情况下,重新启动主服务器对将其恢复到正常行为没有影响,因为Google Compute Engine Incident #16011导致在2016-06-28中为在us-central1-a中运行的GKE主服务器发生中断(即使这不是#39; t显示在Google Cloud Status Dashboard上。在事件中,许多大师都无法使用。

如果您在此期间尝试使用kube-up.sh创建GCE集群,您可能会发现由于SSD持久性磁盘延迟问题而无法创建功能主VM。

答案 1 :(得分:1)

我正在尝试至少准备好一个版本进行升级,如果您尝试升级主服务器,它将在几分钟内重新启动并工作。否则,您应该等待3天左右,Google团队才会重新启动它。在电子邮件/电话上,将无济于事。而且,除非您支付了支持(过渡需要几天的时间),否则他们不会给鸟。