GKE,自动重启卡住的节点

时间:2017-05-30 22:34:09

标签: kubernetes google-cloud-platform google-compute-engine google-kubernetes-engine

有时支持GKE群集的节点会关闭,状态为NotReady

$ kubectl get nodes
NAME                        STATUS     AGE       VERSION
gke-my-pool-f8045547-60gw   Ready      10d       v1.6.2
gke-my-pool-f8045547-7c7e   NotReady   10d       v1.6.2

节点可能会在NotReady中停留数天,直到我手动重新启动它。

我对我的pod进行了运行状况检查,所以它们都转到其他节点,但这个陈旧节点仍然附加了GCE磁盘的问题。因此,在我手动分离磁盘(或重新启动过时节点)之前,某些pod无法在任何其他节点上启动。

这基本上杀死了Kubernetes的整体想法,因为它每天都会发生几次,所以我必须全天照看它。有没有办法配置Kubernetes或GCE自动化这个?最简单的方法是自动重启NotReady个节点,但似乎没有办法为节点本身配置健康检查。另一种选择是自动卸载磁盘,当它从另一台机器请求时,但我也没有看到任何配置方法。

1 个答案:

答案 0 :(得分:2)

GKE具有节点自动修复功能,可监控节点的运行状况并触发自动修复事件(当前是NotReady节点的节点重新创建)。它目前处于测试阶段,但您可以尝试:https://cloud.google.com/container-engine/docs/node-auto-repair