无法使用docker连接到气流中的Postgres数据库

时间:2020-10-29 09:19:09

标签: docker airflow

我正在尝试使用Airflow连接到PostgreSQL数据库,但遇到了一个似乎无法解决的问题。对于tl; dr,我的帖子底部包含尝试在气流dag中创建postgres表时遇到的错误。

我将docker-composethe puckel image结合使用,但是我将其扩展了用途,因此l/custom_airflow:1.5只是我调整后的图像,包括一些python依赖项–它只是抓取puckel映像和pip安装了我自己的部门。这是我的docker-compose文件:

version: '3.7'
services:
    postgres:
        image: postgres:9.6
        environment:
            - POSTGRES_USER=airflow
            - POSTGRES_PASSWORD=airflow
            - POSTGRES_DB=airflow
        logging:
            options:
                max-size: 10m
                max-file: "3"

    db:
        image: postgres:13.0-alpine
        restart: always
        environment:
            POSTGRES_DB: postgres
            POSTGRES_USER: admin_user
            POSTGRES_PASSWORD: secret_password
            POSTGRES_HOST_AUTH_METHOD: trust
            # PGDATA: /var/lib/postgresql/data
        volumes:
            - db-data:/var/lib/postgresql/data
        ports:
            - "5439:5432"
         
    pgadmin:
        image: dpage/pgadmin4:4.27
        restart: always
        environment:
            PGADMIN_DEFAULT_EMAIL: admin@test.com
            PGADMIN_DEFAULT_PASSWORD: test
            PGADMIN_LISTEN_PORT: 1111
        ports:
        - "1111:1111"
        volumes:
            - pgadmin-data:/var/lib/pgadmin
        links:
            - "db:pgsql-server"

    webserver:
        image: l/custom_airflow:1.5
        container_name: l_custom_airflow
        restart: always
        depends_on:
            - postgres
        environment:
            - LOAD_EX=n
            - EXECUTOR=Local
        logging:
            options:
                max-size: 10m
                max-file: "3"
        volumes:
            - ./dags:/usr/local/airflow/dags
            - ./db-data:/usr/local/airflow/db-data
            - ./pgadmin-data:/usr/local/airflow/pgadmin-data
        ports:
            - "8080:8080"
        command: webserver
        healthcheck:
            test: ["CMD-SHELL", "[ -f /usr/local/airflow/airflow-webserver.pid ]"]
            interval: 30s
            timeout: 30s
            retries: 3

volumes:
    db-data: 
    pgadmin-data:

尽管气流使用服务postgres来存储自己的有关DAG的数据,但是我创建了另一个名为db的postgres服务,以使其独立,并在端口5439上进行设置。 这一切似乎运行良好。当我检查docker container ls显示postgres容器被命名为pipeline_5_db_1时,检查docker network ls并使用docker container inspect l_custom_airflow | grep Network检查容器似乎表明它们都已映射到同一网络。 在气流用户界面中,我选择Admin-> Connections-> Create并填写以下内容:

enter image description here

然后我有了简单的动作:

from airflow.models import DAG
from airflow.utils.dates import days_ago
from airflow.operators.python_operator import PythonOperator
from airflow.operators.postgres_operator import PostgresOperator

args = {'start_date': days_ago(1)}

dag = DAG(
    dag_id='testing_dag',
    default_args=args, 
    schedule_interval=None
    )


with dag:

    op1 = PostgresOperator(
        task_id = "make_a_staging_table",
        postgres_conn_id = "my_pg_connection",
        sql = """CREATE TABLE scaled_data
        (
            idx_col integer,
            petal_width float,
            petal_length float
        );
            """
        )

    op1

我想测试一下并尝试制作一张桌子。但是,当我触发DAG时,我在日志中收到以下错误:

[2020-10-29 08:26:53,156] {{taskinstance.py:1128}} ERROR - could not connect to server: Connection refused
    Is the server running on host "pipeline_5_db_1" (172.22.0.2) and accepting
    TCP/IP connections on port 5439?

我已经搜索过,这似乎是一个常见错误,但是我不确定这是什么意思或如何解决我的情况。我尝试将主机设置为0.0.0.0,但其他一些小的调整都没有成功。

1 个答案:

答案 0 :(得分:0)

在这种情况下,您需要使用服务名称作为主机,因此在创建连接时将主机设置为 db 而不是 pipeline_5_db_1

我希望答案不会这么晚:)