GKE 集群突然无法自动扩展节点池

时间:2021-03-26 11:26:43

标签: kubernetes google-kubernetes-engine

我在 GKE 上有两个用于 CI 运行程序的节点池,工作节点池设置为在 0-40 个节点之间自动缩放。直到昨天,这已经完美运行了大约 6 个月,但现在我在禁用 nap 时遇到了不一致的错误。

今天早上 Pod 安排得很好:

decision: {
  decideTime: "1616746520" // Friday, 26 March 2021 08:15:20 GMT
  scaleUp: {

在某些时候他们开始失败,因为nap.disabled

noDecisionStatus: {
  measureTime: "1616756707" // Friday, 26 March 2021 11:05:07 GMT
  napFailureReason: {
    messageId: "no.scale.up.nap.disabled"
  }

这在技术上是正确的,因为集群本身禁用了节点自动配置,但节点池 workers2 具有从 0 到 40 个节点的自动扩展。

我似乎无法找到有关为什么在节点池本身应该扩展时会出现此错误的任何信息,也找不到任何 Pod 突然不触发节点池自动扩展的原因。

我有什么想法可以挖掘以找到更多信息或阻止该错误阻止自动缩放?

1 个答案:

答案 0 :(得分:1)

创建一个新的节点池并销毁旧的节点池似乎已经解决了这个问题,不幸的是没有比这更多的洞察力