Question

我已经运行了一段时间的Kubernetes集群，但我一直无法保持稳定。我的群集由四个节点，两个主人和两个工人组成。所有节点都在同一物理服务器上运行，而后者又运行VMware vSphere 6.5。每个节点运行CoreOS stable（1353.7.0），我运行Kubernetes / Hyperkube v1.6.4，使用Calico进行网络连接。我已按照this指南中的步骤进行操作。

发生的情况是，几小时/几天，群集将毫无障碍地运行。然后，突然间（据我所知，没有明显的原因）我的所有吊舱都处于“待定”状态并保持这种状态。然后，不再可以访问任何托管服务。过了一会儿（通常是5到10分钟），它似乎恢复了自己，之后它开始重新创建我的所有豆荚，并尝试（但失败）关闭我所有正在运行的豆荚。一些新创建的pod出现了，但最初没有连接到互联网。

几个星期以来，我间歇性地遇到了这个问题，并且一直阻止我在生产中使用Kubernetes。我真的很想弄明白这是什么原因！

奇怪的是，当我尝试通过检查日志来诊断问题时，我注意到在我的两个工作节点上，日志日志都会被破坏！在主节点上，日志仍然可读，但信息量不大。

即使在运行时，kubelet也会在其日志中不断发出错误。在所有节点上，这是每分钟发布一次的内容：

May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.012890   24228 cni.go:275] Error deleting network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014762   24228 remote_runtime.go:109] StopPodSandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" from runtime service failed: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014818   24228 kuberuntime_gc.go:138] Failed to stop sandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory
May 26 09:38:07 kube-master1 kubelet-wrapper[24228]: I0526 09:38:07.422341   24228 operation_generator.go:597] MountVolume.SetUp succeeded for volume "kubernetes.io/secret/9a378211-3597-11e7-a7ec-000c2958a0d7-default-token-0p3gf" (spec.Name: "default-token-0p3gf") pod "9a378211-3597-11e7-a7ec-000c2958a0d7" (UID: "9a378211-3597-11e7-a7ec-000c2958a0d7").
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]: W0526 09:38:14.037553   24228 docker_sandbox.go:263] NetworkPlugin cni failed on the status hook for pod "logstash-s3498_default": Unexpected command output nsenter: cannot open : No such file or directory
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]:  with error: exit status 1

我已经用Google搜索了这个错误，遇到了this问题，但是已经关闭，人们表示使用v1.6.0或更高版本应该解决它，但它绝对没有我的情况... < / p>

有人能指出我正确的方向吗？！

谢谢！

Answer 1

也见过这个。如果你将CoreOS降级到带有docker 1.12.3的旧版本，问题似乎就会消失。

Docker是一个噩梦，在他们发布的每一个版本中都有回归:(

所有Kubernetes Pods定期同时下降

1 个答案: