有时支持GKE群集的节点会关闭,状态为NotReady
:
$ kubectl get nodes
NAME STATUS AGE VERSION
gke-my-pool-f8045547-60gw Ready 10d v1.6.2
gke-my-pool-f8045547-7c7e NotReady 10d v1.6.2
节点可能会在NotReady中停留数天,直到我手动重新启动它。
我对我的pod进行了运行状况检查,所以它们都转到其他节点,但这个陈旧节点仍然附加了GCE磁盘的问题。因此,在我手动分离磁盘(或重新启动过时节点)之前,某些pod无法在任何其他节点上启动。
这基本上杀死了Kubernetes的整体想法,因为它每天都会发生几次,所以我必须全天照看它。有没有办法配置Kubernetes或GCE自动化这个?最简单的方法是自动重启NotReady
个节点,但似乎没有办法为节点本身配置健康检查。另一种选择是自动卸载磁盘,当它从另一台机器请求时,但我也没有看到任何配置方法。
答案 0 :(得分:2)
GKE具有节点自动修复功能,可监控节点的运行状况并触发自动修复事件(当前是NotReady节点的节点重新创建)。它目前处于测试阶段,但您可以尝试:https://cloud.google.com/container-engine/docs/node-auto-repair