气流:将动态值传递给Sub DAG操作员

时间:2017-06-05 09:25:10

标签: python airflow apache-airflow

我是Airflow的新手 我遇到过一个场景,其中Parent DAG需要将一些动态数字(比方说)传递给Sub DAG。
SubDAG将使用此数字动态创建并行任务。

选项 - 1(使用xcom Pull)


选项 - 1(使用xcom Pull)




Sub Dag档案


选项 - 2

我还尝试将def load_dag(**kwargs): number_of_runs = json.dumps(kwargs['dag_run'].conf['number_of_runs']) dag_data = json.dumps({ "number_of_runs": number_of_runs }) return dag_data # ------------------ Tasks ------------------------------ load_config = PythonOperator( task_id='load_config', provide_context=True, python_callable=load_dag, dag=dag) t1 = SubDagOperator( task_id=CHILD_DAG_NAME, subdag=sub_dag(PARENT_DAG_NAME, CHILD_DAG_NAME, default_args, "'{{ ti.xcom_pull(task_ids='load_config') }}'" ), default_args=default_args, dag=dag, ) 作为全局变量传递,但这不起作用。

选项 - 3

我们也尝试将此值写入数据文件。但是子DAG正在抛出def sub_dag(parent_dag_name, child_dag_name, args, num_of_runs): dag_subdag = DAG( dag_id='%s.%s' % (parent_dag_name, child_dag_name), default_args=args, schedule_interval=None) variabe_names = {} for i in range(num_of_runs): variabe_names['task' + str(i + 1)] = DummyOperator( task_id='dummy_task', dag=dag_subdag, ) return dag_subdag 。这可能是因为我们正在动态生成此文件。


4 个答案:

def subdag(...):
    sdag = DAG('%s.%s' % (parent, child), default_args=args, schedule_interval=timedelta(hours=1))
    file_path = "/path/to/generated/file"
    if os.path.exists(file_path):
        data_file = open(file_path)
        list_tasks = data_file.readlines()
        for task in list_tasks:
    return sdag


如果仅将呼叫更改为xcom_pull以包括父dag的dag_id,则选项1应该起作用。默认情况下,xcom_pull调用将在其自身不存在的dag中查找task_id 'load_config'


subdag=sub_dag(PARENT_DAG_NAME, CHILD_DAG_NAME, default_args, "'{{ ti.xcom_pull(task_ids='load_config', dag_id='" + PARENT_DAG_NAME + "' }}'" ),

file_path = "/path/to/generated/file"

但是,如果您需要唯一的文件名或希望每个任务实例将不同的内容写入并行执行的任务的文件中,则在这种情况下,气流将无法正常工作,因为无法将执行日期或变量传递到外部模板。看一下this post

