在Airflow中生成多个任务时反转上游/下游关系

时间:2017-07-28 00:07:12

标签: python python-3.x airflow apache-airflow

可以找到与此问题相关的原始代码here

我对两个bithift运算符感到困惑,set_upstream / set_downstream方法在我在DAG中定义的任务循环中工作。当DAG的主执行循环配置如下:

for uid in dash_workers.get_id_creds():
    clear_tables.set_downstream(id_worker(uid))

for uid in dash_workers.get_id_creds():
    clear_tables >> id_worker(uid)

图表看起来像这样(字母数字序列是用户ID,也定义了任务ID):

enter image description here

当我像这样配置DAG的主执行循环时:

for uid in dash_workers.get_id_creds():
    clear_tables.set_upstream(id_worker(uid))

for uid in dash_workers.get_id_creds():
    id_worker(uid) >> clear_tables

图表如下所示:

enter image description here

第二张图是我想要的/我希望根据我阅读的文档生成的前两个代码片段。如果我想在触发针对不同用户ID的批量数据解析任务之前先执行clear_tables,我应将其指示为clear_tables >> id_worker(uid)

编辑 - 这是完整的代码,自我发布最后几个问题以来已经更新,供参考:

from datetime import datetime
import os
import sys

from airflow.models import DAG
from airflow.operators.python_operator import PythonOperator

import ds_dependencies

SCRIPT_PATH = os.getenv('DASH_PREPROC_PATH')
if SCRIPT_PATH:
    sys.path.insert(0, SCRIPT_PATH)
    import dash_workers
else:
    print('Define DASH_PREPROC_PATH value in environmental variables')
    sys.exit(1)

ENV = os.environ

default_args = {
  'start_date': datetime.now(),
}

DAG = DAG(
  dag_id='dash_preproc',
  default_args=default_args
)

clear_tables = PythonOperator(
  task_id='clear_tables',
  python_callable=dash_workers.clear_db,
  dag=DAG)

def id_worker(uid):
    return PythonOperator(
        task_id=id,
        python_callable=dash_workers.main_preprocess,
        op_args=[uid],
        dag=DAG)

for uid in dash_workers.get_id_creds():
    preproc_task = id_worker(uid)
    clear_tables << preproc_task

在实现@ LadislavIndra的建议之后,我继续使用相同的反向运算bithift运算符,以获得正确的依赖图。

更新 @ AshBerlin-Taylor的回答是这里发生的事情。我认为Graph View和Tree View正在做同样的事情,但他们并没有。这是id_worker(uid) >> clear_tables在图表视图中的样子:

enter image description here

我当然不希望我的数据预备例程中的最后一步是删除所有数据表!

2 个答案:

答案 0 :(得分:4)

Airflow中的树视图是“向后”的,你(和我!)首先想到它。在您的第一个屏幕截图中,它显示必须在“AAAG5608078M2”运行任务之前运行“clear_tables”。 DAG状态取决于每个id工作者任务。因此,它不是任务顺序,而是状态链的树。如果这有任何意义的话。

(起初这可能看起来很奇怪,但这是因为DAG可以分支并重新分支。)

你可能会有更好的运气看你的dag的Graph视图。这个有箭头并以更直观的方式显示执行顺序。 (虽然我现在发现树视图很有用。开始时不太清楚)

答案 1 :(得分:1)

查看其他代码,似乎get_id_creds是您的任务,并且您正在尝试循环它,这会创建一些奇怪的交互。

可行的模式是:

clear_tables = MyOperator()

for uid in uid_list:
  my_task = MyOperator(task_id=uid)
  clear_tables >> my_task