所有Kubernetes Pods定期同时下降

时间:2017-05-26 09:51:39

标签: kubernetes coreos calico

我已经运行了一段时间的Kubernetes集群,但我一直无法保持稳定。 我的群集由四个节点,两个主人和两个工人组成。所有节点都在同一物理服务器上运行,而后者又运行VMware vSphere 6.5。每个节点运行CoreOS stable(1353.7.0),我运行Kubernetes / Hyperkube v1.6.4,使用Calico进行网络连接。我已按照this指南中的步骤进行操作。

发生的情况是,几小时/几天,群集将毫无障碍地运行。然后,突然间(据我所知,没有明显的原因)我的所有吊舱都处于“待定”状态并保持这种状态。然后,不再可以访问任何托管服务。 过了一会儿(通常是5到10分钟),它似乎恢复了自己,之后它开始重新创建我的所有豆荚,并尝试(但失败)关闭我所有正在运行的豆荚。一些新创建的pod出现了,但最初没有连接到互联网。

几个星期以来,我间歇性地遇到了这个问题,并且一直阻止我在生产中使用Kubernetes。我真的很想弄明白这是什么原因!

奇怪的是,当我尝试通过检查日志来诊断问题时, 我注意到在我的两个工作节点上,日志日志都会被破坏!在主节点上,日志仍然可读,但信息量不大。

即使在运行时,kubelet也会在其日志中不断发出错误。在所有节点上,这是每分钟发布一次的内容:

May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.012890   24228 cni.go:275] Error deleting network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014762   24228 remote_runtime.go:109] StopPodSandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" from runtime service failed: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014818   24228 kuberuntime_gc.go:138] Failed to stop sandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:38:07 kube-master1 kubelet-wrapper[24228]: I0526 09:38:07.422341   24228 operation_generator.go:597] MountVolume.SetUp succeeded for volume "kubernetes.io/secret/9a378211-3597-11e7-a7ec-000c2958a0d7-default-token-0p3gf" (spec.Name: "default-token-0p3gf") pod "9a378211-3597-11e7-a7ec-000c2958a0d7" (UID: "9a378211-3597-11e7-a7ec-000c2958a0d7").
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]: W0526 09:38:14.037553   24228 docker_sandbox.go:263] NetworkPlugin cni failed on the status hook for pod "logstash-s3498_default": Unexpected command output nsenter: cannot open : No such file or directory
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]:  with error: exit status 1

我已经用Google搜索了这个错误,遇到了this问题,但是已经关闭,人们表示使用v1.6.0或更高版本应该解决它,但它绝对没有我的情况... < / p>

有人能指出我正确的方向吗?!

谢谢!

1 个答案:

答案 0 :(得分:1)

也见过这个。如果你将CoreOS降级到带有docker 1.12.3的旧版本,问题似乎就会消失。

Docker是一个噩梦,在他们发布的每一个版本中都有回归:(