为什么我的mongo容器的docker-compose健康检查总是失败?

时间:2019-01-27 00:21:57

标签: mongodb docker docker-compose

我正在使用docker-compose来启动Express / React / Mongo应用程序。目前,我可以使用Express应用程序中的重试逻辑来支持一切。但是,我更喜欢使用Docker的healthcheck来防止容器最初旋转时出现错误字符串。但是,当我在healthcheck中添加docker-compose.yml时,它将挂起间隔/重试时间限制,并退出:

ERROR: for collector  Container "70e7aae49c64" is unhealthy.

ERROR: for server  Container "70e7aae49c64" is unhealthy.
ERROR: Encountered errors while bringing up the project.

看来,我的健康检查从未恢复健康状态,我也不完全知道为什么。我的docker-compose.yml的全部:

version: "2.1"
services:
  mongo:
    image: mongo
    volumes:
      - ./data/mongodb/db:/data/db
    ports:
      - "${DB_PORT}:${DB_PORT}"
    healthcheck:
      test: echo 'db.runCommand("ping").ok' | mongo mongo:27017/test --quiet 1
      interval: 10s
      timeout: 10s
      retries: 5
  collector:
    build: ./collector/
    environment:
      - DB_HOST=${DB_HOST}
      - DB_PORT=${DB_PORT}
      - DB_NAME=${DB_NAME}
    volumes:
      - ./collector/:/app
    depends_on:
      mongo:
        condition: service_healthy
  server:
    build: .
    environment:
      - SERVER_PORT=$SERVER_PORT
    volumes:
      - ./server/:/app
    ports:
      - "${SERVER_PORT}:${SERVER_PORT}"
    depends_on:
      mongo:
        condition: service_healthy

对于test,我也尝试过:

["CMD", "nc", "-z", "localhost", "27017"] 

并且:

["CMD", "bash", "/mongo-healthcheck"]

我还尝试遵循this guy的建议完全放弃healthcheck。一切正常,但是在成功连接之前,我在输出中得到了可怕的错误:

collector_1  | MongoDB connection error: MongoNetworkError: failed to connect to server [mongo:27017] on first connect [MongoNetworkError: connect 
ECONNREFUSED 172.21.0.2:27017]
collector_1  | MongoDB connection with retry
collector_1  | MongoDB connection error: MongoNetworkError: failed to connect to server [mongo:27017] on first connect

最终目标是在运行docker-compose up --build时提供干净的启动输出。我还研究了this question中的一些解决方案,但是我对wait-for-it也不太满意。在启动其他容器并完成干净启动之前,等待Mongo启动并运行的正确方法是什么?

4 个答案:

答案 0 :(得分:3)

首先,我建议将docker-compose.yaml文件版本至少更新为3.4(version: "3.5",然后将start_period选项添加到mongo healthcheck

  

注意:仅v3.4及更高版本的撰写文件格式支持start_period。

     

开始时间为需要时间进行引导的容器提供了初始化时间。在此期间内的探针故障将不计入最大重试次数。但是,如果运行状况检查在启动期间成功,则认为该容器已启动,并且所有连续失败将计入最大重试次数。

所以看起来像这样:

healthcheck:
  test: echo 'db.runCommand("ping").ok' | mongo mongo:27017/test --quiet 1
  interval: 10s
  timeout: 10s
  retries: 5
  start_period: 40s

答案 1 :(得分:2)

我们可以使用MongoDB的serverStatus命令进行运行状况检查,就像MongoDB文档这样说:

监视应用程序可以定期运行此命令以收集有关实例的统计信息。

由于此命令serverStatus需要身份验证,因此您需要进行运行状况检查,类似于以下所示的配置:

version: '3.4'

services:
  mongo:
    image: mongo
    restart: always
    healthcheck:
      test: echo 'db.runCommand({serverStatus:1}).ok' | mongo admin -u $MONGO_INITDB_ROOT_USERNAME -p $MONGO_INITDB_ROOT_PASSWORD --quiet | grep 1
      interval: 10s
      timeout: 10s
      retries: 3
      start_period: 20s
    environment:
      MONGO_INITDB_ROOT_USERNAME: root
      MONGO_INITDB_ROOT_PASSWORD: example

就是这样。如果您的MongoDB实例运行状况良好,您将看到类似于我的东西:

$ docker ps
CONTAINER ID  IMAGE  COMMAND                 CREATED         STATUS                   PORTS      NAMES
01ed0e02aa70  mongo  "docker-entrypoint.s…"  11 minutes ago  Up 11 minutes (healthy)  27017/tcp  demo_mongo_1

答案 2 :(得分:1)

我在这里找到了解决方案 https://github.com/docker-library/healthcheck/tree/master/mongo

注意,它解释了为什么官方图片中不包含健康检查 https://github.com/docker-library/cassandra/pull/76#issuecomment-246054271

docker-healthcheck

#!/bin/bash
set -eo pipefail

if mongo --quiet "localhost/test" --eval 'quit(db.runCommand({ ping: 1 }).ok ? 0 : 2)'; then
    exit 0
fi

exit 1

在链接的示例中,他们使用 host 变量

host="$(hostname --ip-address || echo '127.0.0.1')"

if mongo --quiet "$host/test" --eval 'quit(db.runCommand({ ping: 1 }).ok ? 0 : 2)'; then
# continues the same code

它对我不起作用,所以我用 localhost 替换了主机

docker-compose

mongo:
  build:
    context: "./mongodb"
    dockerfile: Dockerfile
  container_name: crm-mongo
  restart: always
  healthcheck:
    test:  ["CMD", "docker-healthcheck"]
    interval: 10s
    timeout: 2s
    retries: 10

或者,您可以在容器中执行运行状况检查。更改 Dockerfile

FROM mongo:4

ADD docker-healthcheck /usr/local/bin/

答案 3 :(得分:0)

当我在docker容器中执行echo db.runCommand("ping").ok' | mongo localhost:27017/test --quiet 1命令时,结果是:

    2019-04-19T02:39:19.770+0000 E -        [main] file [1] doesn't exist
    failed to load: 1

尝试一下echo 'db.runCommand("ping").ok' | mongo mongo:27017/test --quiet | echo $?