我正在AWS上创建一个新的EKS Kubernetes集群。
当我部署工作负载(从现有群集迁移)时,Kubelet停止发布节点状态,并且所有工作节点在一分钟内变为“未就绪”。
我以为群集中的错误配置不会导致节点崩溃-但显然会。
集群中的错误配置是否真的会使AWS EKS Worker节点“未就绪”?在什么情况下会发生这种情况? CPU负载过高? kube系统中的豆荚崩溃了吗?
答案 0 :(得分:2)
这是一个基于评论解决方案的社区 wiki 答案,并发布以提高可见性。随意扩展它。
正如@gusto2 所建议的,问题在于 kubelet pod 无法调用 API 服务器。 @stackoverflowjakob late 确认工作节点和主节点之间的连接由于 https://tools.ietf.org/html/rfc3339#section-5.6 配置错误而中断,并通过检查 VPC -> EKS 状态发现。
答案 1 :(得分:0)
您可以尝试kubectl describe node $BAD_NODE
或ssh进入节点,然后尝试sudo dmesg -T
和
尝试在节点/etc/init.d/kubelet restart
或
systemctl restart kubelet
或删除节点(先排水)
kubectl drain <node-name>
kubectl delete node <node-name>
答案 2 :(得分:0)
它的发生可能有多种原因:
检查该节点上Kubelet的日志以及kubectl get事件的输出。
使用工具(数据狗,prometheus)来监视节点的CPU使用率,磁盘压力等。