Question

我正在AWS上创建一个新的EKS Kubernetes集群。

当我部署工作负载（从现有群集迁移）时，Kubelet停止发布节点状态，并且所有工作节点在一分钟内变为“未就绪”。

我以为群集中的错误配置不会导致节点崩溃-但显然会。

集群中的错误配置是否真的会使AWS EKS Worker节点“未就绪”？在什么情况下会发生这种情况？ CPU负载过高？ kube系统中的豆荚崩溃了吗？

Answer 1

这是一个基于评论解决方案的社区 wiki 答案，并发布以提高可见性。随意扩展它。

正如@gusto2 所建议的，问题在于 kubelet pod 无法调用 API 服务器。 @stackoverflowjakob late 确认工作节点和主节点之间的连接由于 https://tools.ietf.org/html/rfc3339#section-5.6 配置错误而中断，并通过检查 VPC -> EKS 状态发现。

Answer 2

您可以尝试kubectl describe node $BAD_NODE或ssh进入节点，然后尝试sudo dmesg -T和
尝试在节点/etc/init.d/kubelet restart

上重新设置kubelet

或

systemctl restart kubelet

或删除节点（先排水）

kubectl drain <node-name>
kubectl delete node <node-name>

Answer 3

它的发生可能有多种原因：

IO在Node上变高
磁盘空间不足
用尽IP
超出FD限制

检查该节点上Kubelet的日志以及kubectl get事件的输出。

使用工具（数据狗，prometheus）来监视节点的CPU使用率，磁盘压力等。

https://github.com/awslabs/amazon-eks-ami/issues/79

AWS EKS工作程序节点“未就绪”

3 个答案: