我有一个DAG
我正在执行的气流群集默认使用CeleryExecutor
,所以我担心在扩大工作人员数量的某个时候,这些任务可能会在不同的工作人员上执行。例如。工作者A执行下载,工作人员B尝试上传,但找不到该文件(因为它在工作人员A上)
是否有可能以某种方式保证下载和上传操作符都将在同一个气流工作者上执行?
答案 0 :(得分:1)
对于这些用例,我们有两个解决方案:
答案 1 :(得分:1)
将第1步(csv下载)和第2步(csv上传)放入子标记,然后通过SubDagOperator触发它,executor
选项设置为SequentialExecutor
- 这将确保步骤1和2在同一个工作人员上运行。
这是一个工作的DAG文件,说明了这个概念(实际操作被删除为DummyOperators),下载/上传步骤在一些更大的过程中:
from datetime import datetime, timedelta
from airflow.models import DAG
from airflow.operators.dummy_operator import DummyOperator
from airflow.operators.subdag_operator import SubDagOperator
from airflow.executors.sequential_executor import SequentialExecutor
PARENT_DAG_NAME='subdaggy'
CHILD_DAG_NAME='subby'
def make_sub_dag(parent_dag_name, child_dag_name, start_date, schedule_interval):
dag = DAG(
'%s.%s' % (parent_dag_name, child_dag_name),
schedule_interval=schedule_interval,
start_date=start_date
)
task_download = DummyOperator(
task_id = 'task_download_csv',
dag=dag
)
task_upload = DummyOperator(
task_id = 'task_upload_csv',
dag=dag
)
task_download >> task_upload
return dag
main_dag = DAG(
PARENT_DAG_NAME,
schedule_interval=None,
start_date=datetime(2017,1,1)
)
main_task_1 = DummyOperator(
task_id = 'main_1',
dag = main_dag
)
main_task_2 = SubDagOperator(
task_id = CHILD_DAG_NAME,
subdag=make_sub_dag(PARENT_DAG_NAME, CHILD_DAG_NAME, main_dag.start_date, main_dag.schedule_interval),
executor=SequentialExecutor(),
dag=main_dag
)
main_task_3 = DummyOperator(
task_id = 'main_3',
dag = main_dag
)
main_task_1 >> main_task_2 >> main_task_3