应用错误收集

如何在GKE中重新启动无响应的kubernetes master

时间：2016-06-29 13:10:54

标签： kubernetes google-kubernetes-engine

我们的一个GKE集群中的kubernetes主人昨晚在us-central1-a的基础设施问题后变得没有反应。

每当我跑步＆＃34; kubectl得到豆荚＆＃34;在默认命名空间中，我收到以下错误消息： 来自服务器的错误：服务器上的错误导致请求无法成功

如果我运行＆＃34; kubectl获取pods --namespace = kube-system＆＃34;，我只会看到kube-proxy和fluentd-logging守护程序。

我尝试将群集缩小到0，然后再将其缩放。我也试过降级和升级集群，但这似乎只适用于节点（不是主节点）。是否有任何GKE / K8S API命令向kubernetes master发出重启？

2 个答案:

答案 0 :(得分：3)

没有一个命令允许您在GKE中重新启动Kubernetes主服务器（因为主服务器被认为是托管服务的一部分）。有自动化基础设施（然后是谷歌的oncall工程师）负责重新启动主机，如果它不健康。

在这种特殊情况下，重新启动主服务器对将其恢复到正常行为没有影响，因为Google Compute Engine Incident #16011导致在2016-06-28中为在us-central1-a中运行的GKE主服务器发生中断（即使这不是＃39; t显示在Google Cloud Status Dashboard上。在事件中，许多大师都无法使用。

如果您在此期间尝试使用kube-up.sh创建GCE集群，您可能会发现由于SSD持久性磁盘延迟问题而无法创建功能主VM。

答案 1 :(得分：1)

我正在尝试至少准备好一个版本进行升级，如果您尝试升级主服务器，它将在几分钟内重新启动并工作。否则，您应该等待3天左右，Google团队才会重新启动它。在电子邮件/电话上，将无济于事。而且，除非您支付了支持（过渡需要几天的时间），否则他们不会给鸟。