在过去1个月中,我们的GKE集群经历了4个AUTO_REPAIR_NODES
事件(由命令gcloud container operations list
透露)。节点自动修复的结果是重新创建该节点并附加了新的外部IP,并且第三方服务未将其列入白名单的新外部IP最终导致在该新节点上运行的服务失败。
我注意到我们在Kubernetes集群中启用了“ 自动节点修复”,并很想禁用它,但是在我这样做之前,我需要了解更多情况。
我的问题是:
答案 0 :(得分:1)
这里的困惑在于,运行kubectl get nodes
时会显示kup-apiserver报告的“就绪”和“未就绪”状态。但是这些是独立的,并且从文档中还不清楚,它们与所描述的here的kubelet状态有何关系
您还可以在运行kubectl describe nodes
要回答部分问题:
由kube-apiserver报告
对于这些,kubelet将开始逐出或不排定Pod(准备就绪(https://kubernetes.io/docs/tasks/administer-cluster/out-of-resource/)除外。从文档中还不清楚如何从kubeapi服务器中报告这些消息。
希望有帮助!