Question

Docker-CE 19.03.8 群初始化设置：1个Manager节点，仅此而已。

我们每天部署许多新堆栈，有时我会看到以下一行：

evel=error msg="Failed to allocate network resources for node sdlk0t6pyfb7lxa2ie3w7fdzr" error="could not find network allocator state for network qnkxurc5etd2xrkb53ry0fu59" module=node node.id=yp0u6n9c31yh3xyekondzr4jc

2至3天后。由于没有免费的VIP，因此无法启动任何新服务。我在日志中看到以下行：

level=error msg="Could not parse VIP address  while releasing"                                                                                                                                       
level=error msg="error deallocating vip" error="invalid CIDR address: " vip.addr= vip.network=oqcsj99taftdu3b0t3nrgbgy1                                                                              
level=error msg="Event api.EventUpdateTask: Failed to get service idid0u7vjuxf2itpv8n31da57 for task 6vnc8jdkgxwxqbs3ixly2i6u4 state NEW: could not find service idid0u7vjuxf2itpv8n31da57" module=node ...
level=error msg="Event api.EventUpdateTask: Failed to get service sbjb7nk0wk31c2ayg8x898fhr for task noo21whnbwkyijnqavseirfg0 state NEW: could not find service sbjb7nk0wk31c2ayg8x898fhr" module=node ...
level=error msg="Failed to find network y73pnq85mjpn1pon38pdbtaw2 on node sdlk0t6pyfb7lxa2ie3w7fdzr" module=node node.id=yp0u6n9c31yh3xyekondzr4jc

我们试图通过调试模式对此进行调查。以下是一些吸引我的信息：

level=debug msg="Remove interface veth84e7185 failed: Link not found"
level=debug msg="Remove interface veth64c3a65 failed: Link not found"
level=debug msg="Remove interface vethf1703f1 failed: Link not found"
level=debug msg="Remove interface vethe069254 failed: Link not found"
level=debug msg="Remove interface veth2b81763 failed: Link not found"
level=debug msg="Remove interface veth0bf3390 failed: Link not found"
level=debug msg="Remove interface veth2ed04cc failed: Link not found"
level=debug msg="Remove interface veth0bc27ef failed: Link not found"
level=debug msg="Remove interface veth444343f failed: Link not found"
level=debug msg="Remove interface veth036acf9 failed: Link not found"
level=debug msg="Remove interface veth62d7977 failed: Link not found"

和

level=debug msg="Request address PoolID:10.0.0.0/24 App: ipam/default/data, ID: GlobalDefault/10.0.0.0/24, DBIndex: 0x0, Bits: 256, Unselected: 60, Sequence: (0xf7dfeeee, 1)->(0xedddddb7, 1)->(0x77777777, 3)->(0x77777775, 1)->(0x77ffffff, 1)->(0xffd55555, 1)->end Curr:233 Serial:true PrefAddress:<

当UNSELECTED部分变为0时，不能部署任何新容器。它们停留在NEW状态。

有人有这样过期的东西吗？或者有人可以帮我吗？我们认为，该问题与发布10.0.0.0/24（我们的入口）地址有关。

Answer 1

您是否尝试过stop并重新start Docker恶魔？

sudo service docker stop
sudo service docker start

此外，您可能会发现查看https://dockerswarm.rocks/上的华丽文档很有帮助

我通常使用此顺序来更新服务

export DOMAIN=xxxx.xxxxx.xxx
docker stack rm $service_name
export NODE_ID=$(docker info -f '{{.Swarm.NodeID}}')
# export environment vars if needed
# update data if needed
docker node update --label-add $service_name.$service_name-data=true $NODE_ID
docker stack deploy -c $service_name.yml $service_name

Answer 2

如果您看到您的容器卡在 NEW 状态，则您可能受到此问题的影响：https://github.com/moby/moby/issues/37338 报告的cintiadr：

<块引用>

Docker 堆栈无法在覆盖网络上分配 IP，并陷入新的当前状态 #37338

复制：

创建一个 swarm 集群（1 个管理器，1 个工作器）。我创建了 AWS t2.large Amazon linux 实例，使用他们的文档安装了 docker，版本 18.06.1-ce。

# Deploy a new overlay network from a stack (docker-network.yml)
$ ./deploy-network.sh
 
Deploy 60 identical services attaching to that network - 3 replicas each - from stacks (docker-network.yml)
$ ./deploy-services.sh

您可以验证所有服务都在愉快地运行。

现在让我们把工人放倒。

运行：

docker node update --availability drain <node id> && docker node rm --force <node id>

注意：drain 是一个异步操作（这是我不知道的），所以要重现这个用例，你不应该等待 Drain 完成

创建一个新的工作器（全新的节点/机器），并加入集群。您将看到实际上很少有服务能够启动。由于没有可用的 IP，所有其他的将不断被拒绝。

在过去的版本中（我相信有 17 个），容器不会被拒绝（而是卡在 NEW 中）。

如何避免这个问题？

如果在移除节点之前排空并耐心等待所有容器终止，则似乎完全避免了这个问题。

分配网络资源失败

2 个答案: