AWS EKS工作程序节点“未就绪”

时间:2019-12-26 20:46:08

标签: amazon-web-services kubernetes eks

我正在AWS上创建一个新的EKS Kubernetes集群。

当我部署工作负载(从现有群集迁移)时,Kubelet停止发布节点状态,并且所有工作节点在一分钟内变为“未就绪”。

我以为群集中的错误配置不会导致节点崩溃-但显然会。

集群中的错误配置是否真的会使AWS EKS Worker节点“未就绪”?在什么情况下会发生这种情况? CPU负载过高? kube系统中的豆荚崩溃了吗?

3 个答案:

答案 0 :(得分:2)

这是一个基于评论解决方案的社区 wiki 答案,并发布以提高可见性。随意扩展它。

正如@gusto2 所建议的,问题在于 kubelet pod 无法调用 API 服务器。 @stackoverflowjakob late 确认工作节点和主节点之间的连接由于 https://tools.ietf.org/html/rfc3339#section-5.6 配置错误而中断,并通过检查 VPC -> EKS 状态发现。

答案 1 :(得分:0)

您可以尝试kubectl describe node $BAD_NODE或ssh进入节点,然后尝试sudo dmesg -T
尝试在节点/etc/init.d/kubelet restart

上重新设置kubelet

systemctl restart kubelet

或删除节点(先排水)

kubectl drain <node-name>
kubectl delete node <node-name>

答案 2 :(得分:0)

它的发生可能有多种原因:

  1. IO在Node上变高
  2. 磁盘空间不足
  3. 用尽IP
  4. 超出FD限制

检查该节点上Kubelet的日志以及kubectl get事件的输出。

使用工具(数据狗,prometheus)来监视节点的CPU使用率,磁盘压力等。

https://github.com/awslabs/amazon-eks-ami/issues/79