Question

我正在使用consul的健康检查功能，并且我不断获取这些“死”容器：

CONTAINER ID  IMAGE                   COMMAND              CREATED         STATUS              PORTS                                                                                                                                                                    NAMES
20fd397ba638  progrium/consul:latest  "\"/bin/bash -c 'cur 15 minutes ago  Dead

什么是“死”容器？停止的容器何时变为“死”？

为了记录，我运行progrium / consul + gliderlabs / registrator images + SERVICE_XXXX_CHECK env变量来进行健康检查。它运行一个运行图像的运行状况检查脚本每隔X秒，类似docker run --rm my/img healthcheck.sh

我对“死”意味着什么以及如何防止它发生感兴趣。另一件奇怪的事情是我死去的容器没有名字。

这是集装箱检查的一些信息：

  "State": {
        "Dead": true,
        "Error": "",
        "ExitCode": 1,
        "FinishedAt": "2015-05-30T19:00:01.814291614Z",
        "OOMKilled": false,
        "Paused": false,
        "Pid": 0,
        "Restarting": false,
        "Running": false,
        "StartedAt": "2015-05-30T18:59:51.739464262Z"
    },

奇怪的是，只有每一个容器都会变成死亡并且不会被移除。

谢谢

编辑：查看日志，我发现了导致容器停止运行的原因：

  Handler for DELETE /containers/{name:.*} returned error: Cannot destroy container 003876e41429013e46187ebcf6acce1486bc5011435c610bd163b159ba550fbc: 
Driver aufs failed to remove root filesystem 003876e41429013e46187ebcf6acce1486bc5011435c610bd163b159ba550fbc: 
rename /var/lib/docker/aufs/diff/003876e41429013e46187ebcf6acce1486bc5011435c610bd163b159ba550fbc 
/var/lib/docker/aufs/ diff/003876e41429013e46187ebcf6acce1486bc5011435c610bd163b159ba550fbc-removing: 
device or resource busy

为什么会这样？

EDIT2：发现了这个：https://github.com/docker/docker/issues/9665

Answer 1

2016年3月更新：issue 9665刚刚被PR 21107关闭（可能是码头1.11）这应该有助于避免“驱动程序aufs无法删除根文件系统”，“设备或资源忙”问题。

2015年5月的原始答案

container states由Container.Start()

测试后死亡为1

if container.removalInProgress || container.Dead {
        return fmt.Errorf("Container is marked for removal and cannot be started.")
}

它是set Dead when stopping fails，以防止该容器重新启动。

在可能的失败原因中，see container.Kill() 这意味着kill -15和kill -9都失败了。

// 1. Send a SIGTERM
if err := container.killPossiblyDeadProcess(15); err != nil {
    logrus.Infof("Failed to send SIGTERM to the process, force killing")
    if err := container.killPossiblyDeadProcess(9); err != nil {

这通常意味着，正如OP提到的那样，繁忙的设备或资源，阻止进程被杀死。

Answer 2

EBUSY导致很多错误，特别是在使用devicemapper时。

所有EBUSY相关问题都存在跟踪器错误。见https://github.com/docker/docker/issues/5684#issuecomment-69052334

在consul healthcheck运行后，状态为“Dead”的Docker容器

2 个答案: