我在Google Kubernetes Engine上创建了一个集群。节点被删除/创建的频率很高(每天至少一次)。即使创建了新实例来替换它们,并且将吊舱移到了这些新节点上,我仍想了解为什么节点消失了。
我检查了用于创建集群和节点池的设置:
gcloud container operations list
中没有任何显示。我可以看到,当前节点都是在21:00(重新)创建的,而集群是在08:35创建的:
➜ ~ gcloud container clusters describe my-cluster --format=json
{
"createTime": "2019-04-11T08:35:39+00:00",
...
"nodePools": [
{
...
"management": {
"autoRepair": true
},
"name": "default-pool",
}
],
"status": "RUNNING",
...
}
如何跟踪删除节点的原因?
答案 0 :(得分:0)
我试图通过创建集群,手动停止节点上的kubelet(通过运行systemctl stop kubelet
)来触发修复并观察节点恢复来重现您的问题。就我而言,我确实看到了自动节点修复的操作,但是我也可以在GCE操作日志中看到该VM已被删除并重新创建(通过GKE机械手帐户)。
如果运行gcloud compute operations list
(或检查cloud console page进行操作),则应查看导致VM删除并重新创建的原因。
答案 1 :(得分:0)
我只是在2019年10月13日星期日发生了。 有状态分区中的所有数据也消失了