GKE节点意外删除并重新创建

时间:2019-04-12 13:19:20

标签: kubernetes google-kubernetes-engine

我在Google Kubernetes Engine上创建了一个集群。节点被删除/创建的频率很高(每天至少一次)。即使创建了新实例来替换它们,并且将吊舱移到了这些新节点上,我仍想了解为什么节点消失了。

我检查了用于创建集群和节点池的设置:

  • 在节点池上禁用了“自动节点升级”。
  • “可抢占节点”已禁用。
  • “自动节点修复”已启用,但是我似乎没有进行节点修复,因为在删除节点时gcloud container operations list中没有任何显示。

我可以看到,当前节点都是在21:00(重新)创建的,而集群是在08:35创建的:

➜  ~ gcloud container clusters describe my-cluster --format=json
{
  "createTime": "2019-04-11T08:35:39+00:00",
  ...
  "nodePools": [
    {
      ...
      "management": {
        "autoRepair": true
      },
      "name": "default-pool",
    }
  ],
  "status": "RUNNING",
  ...
}

如何跟踪删除节点的原因?

2 个答案:

答案 0 :(得分:0)

我试图通过创建集群,手动停止节点上的kubelet(通过运行systemctl stop kubelet)来触发修复并观察节点恢复来重现您的问题。就我而言,我确实看到了自动节点修复的操作,但是我也可以在GCE操作日志中看到该VM已被删除并重新创建(通过GKE机械手帐户)。

如果运行gcloud compute operations list(或检查cloud console page进行操作),则应查看导致VM删除并重新创建的原因。

答案 1 :(得分:0)

我只是在2019年10月13日星期日发生了。 有状态分区中的所有数据也消失了