使用v1.3.4的kubernetes集群启动一个主人和两个小兵
群集启动正常,可以启动和控制pod而不会出现问题
只要其中一个小兵重新启动,或者任何相关服务(例如kubelet重启),小兵就不会重新加入群集
来自kubelet服务的错误形式为:
Aug 08 08:21:15 ip-10-16-1-20 kubelet[911]: E0808 08:21:15.955309 911 kubelet.go:2875] Error updating node status, will retry: error getting node "ip-10-16-1-20.us-west-2.compute.internal": nodes "ip-10-16-1-20.us-west-2.compute.internal" not found
目前我们可以看到纠正这个问题的唯一方法是拆除整个集群并重建它
更新: 我看了一下控制器管理器日志,得到了以下内容
W0815 13:36:39.087991 1 nodecontroller.go:433] Unable to find Node: ip-10-16-1-25.us-west-2.compute.internal, deleting all assigned Pods.
W0815 13:37:39.123811 1 nodecontroller.go:433] Unable to find Node: ip-10-16-1-25.us-west-2.compute.internal, deleting all assigned Pods.
E0815 13:37:39.133045 1 nodecontroller.go:434] pods "kube-proxy-ip-10-16-1-25.us-west-2.compute.internal" not found
答案 0 :(得分:0)
这实际上是一个核心问题,尽管很难确定问题究竟是什么。从aws go层调用低级别的os主机解析代码很可能,但这纯粹是猜测。通过将coreos ami升级到更高版本解决了我们面临的许多问题。