我正在尝试使用Airflow连接到PostgreSQL数据库,但遇到了一个似乎无法解决的问题。对于tl; dr,我的帖子底部包含尝试在气流dag中创建postgres表时遇到的错误。
我将docker-compose
与the puckel image结合使用,但是我将其扩展了用途,因此l/custom_airflow:1.5
只是我调整后的图像,包括一些python依赖项–它只是抓取puckel映像和pip安装了我自己的部门。这是我的docker-compose
文件:
version: '3.7'
services:
postgres:
image: postgres:9.6
environment:
- POSTGRES_USER=airflow
- POSTGRES_PASSWORD=airflow
- POSTGRES_DB=airflow
logging:
options:
max-size: 10m
max-file: "3"
db:
image: postgres:13.0-alpine
restart: always
environment:
POSTGRES_DB: postgres
POSTGRES_USER: admin_user
POSTGRES_PASSWORD: secret_password
POSTGRES_HOST_AUTH_METHOD: trust
# PGDATA: /var/lib/postgresql/data
volumes:
- db-data:/var/lib/postgresql/data
ports:
- "5439:5432"
pgadmin:
image: dpage/pgadmin4:4.27
restart: always
environment:
PGADMIN_DEFAULT_EMAIL: admin@test.com
PGADMIN_DEFAULT_PASSWORD: test
PGADMIN_LISTEN_PORT: 1111
ports:
- "1111:1111"
volumes:
- pgadmin-data:/var/lib/pgadmin
links:
- "db:pgsql-server"
webserver:
image: l/custom_airflow:1.5
container_name: l_custom_airflow
restart: always
depends_on:
- postgres
environment:
- LOAD_EX=n
- EXECUTOR=Local
logging:
options:
max-size: 10m
max-file: "3"
volumes:
- ./dags:/usr/local/airflow/dags
- ./db-data:/usr/local/airflow/db-data
- ./pgadmin-data:/usr/local/airflow/pgadmin-data
ports:
- "8080:8080"
command: webserver
healthcheck:
test: ["CMD-SHELL", "[ -f /usr/local/airflow/airflow-webserver.pid ]"]
interval: 30s
timeout: 30s
retries: 3
volumes:
db-data:
pgadmin-data:
尽管气流使用服务postgres
来存储自己的有关DAG的数据,但是我创建了另一个名为db
的postgres服务,以使其独立,并在端口5439
上进行设置。
这一切似乎运行良好。当我检查docker container ls
显示postgres容器被命名为pipeline_5_db_1
时,检查docker network ls
并使用docker container inspect l_custom_airflow | grep Network
检查容器似乎表明它们都已映射到同一网络。
在气流用户界面中,我选择Admin-> Connections-> Create并填写以下内容:
然后我有了简单的动作:
from airflow.models import DAG
from airflow.utils.dates import days_ago
from airflow.operators.python_operator import PythonOperator
from airflow.operators.postgres_operator import PostgresOperator
args = {'start_date': days_ago(1)}
dag = DAG(
dag_id='testing_dag',
default_args=args,
schedule_interval=None
)
with dag:
op1 = PostgresOperator(
task_id = "make_a_staging_table",
postgres_conn_id = "my_pg_connection",
sql = """CREATE TABLE scaled_data
(
idx_col integer,
petal_width float,
petal_length float
);
"""
)
op1
我想测试一下并尝试制作一张桌子。但是,当我触发DAG时,我在日志中收到以下错误:
[2020-10-29 08:26:53,156] {{taskinstance.py:1128}} ERROR - could not connect to server: Connection refused
Is the server running on host "pipeline_5_db_1" (172.22.0.2) and accepting
TCP/IP connections on port 5439?
我已经搜索过,这似乎是一个常见错误,但是我不确定这是什么意思或如何解决我的情况。我尝试将主机设置为0.0.0.0
,但其他一些小的调整都没有成功。
答案 0 :(得分:0)
在这种情况下,您需要使用服务名称作为主机,因此在创建连接时将主机设置为 db
而不是 pipeline_5_db_1
。
我希望答案不会这么晚:)