我在 GKE 上有两个用于 CI 运行程序的节点池,工作节点池设置为在 0-40 个节点之间自动缩放。直到昨天,这已经完美运行了大约 6 个月,但现在我在禁用 nap
时遇到了不一致的错误。
今天早上 Pod 安排得很好:
decision: {
decideTime: "1616746520" // Friday, 26 March 2021 08:15:20 GMT
scaleUp: {
在某些时候他们开始失败,因为nap.disabled
:
noDecisionStatus: {
measureTime: "1616756707" // Friday, 26 March 2021 11:05:07 GMT
napFailureReason: {
messageId: "no.scale.up.nap.disabled"
}
这在技术上是正确的,因为集群本身禁用了节点自动配置,但节点池 workers2
具有从 0 到 40 个节点的自动扩展。
我似乎无法找到有关为什么在节点池本身应该扩展时会出现此错误的任何信息,也找不到任何 Pod 突然不触发节点池自动扩展的原因。
我有什么想法可以挖掘以找到更多信息或阻止该错误阻止自动缩放?
答案 0 :(得分:1)
创建一个新的节点池并销毁旧的节点池似乎已经解决了这个问题,不幸的是没有比这更多的洞察力