运行时的气流动态任务

时间:2018-02-02 19:29:33

标签: python airflow airflow-scheduler

关于“动态任务”的其他问题似乎可以解决在计划或设计时动态构建DAG的问题。我对在执行期间动态地向DAG添加任务感兴趣。

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
from airflow.operators.python_operator import PythonOperator
from datetime import datetime

dag = DAG('test_dag', description='a test',
          schedule_interval='0 0 * * *',
          start_date=datetime(2018, 1, 1),
          catchup=False)

def make_tasks():
    du1 = DummyOperator(task_id='dummy1', dag=dag)
    du2 = DummyOperator(task_id='dummy2', dag=dag)
    du3 = DummyOperator(task_id='dummy3', dag=dag)
    du1 >> du2 >> du3

p = PythonOperator(
    task_id='python_operator',
    dag=dag,
    python_callable=make_tasks)

这种天真的实现似乎不起作用 - 虚拟任务永远不会出现在UI中。

在执行期间向DAG添加新运算符的正确方法是什么?有可能吗?

3 个答案:

答案 0 :(得分:3)

无法在DAG执行期间修改DAG(无需进行更多工作)。

dag = DAG(...由调度程序循环拾取。它将具有任务实例'python_operator'。该任务实例在dag运行中进行调度,并由工作程序或执行程序执行。由于仅通过调度程序更新Airflow DB中的DAG模型,因此这些添加的虚拟任务将不会保留到DAG中,也不会计划运行。他们在工人离开时将被遗忘。除非您从调度程序中复制有关持久性和更新模型的所有代码…否则下次调度程序访问DAG文件进行解析时,该代码将被撤消,这可能是每分钟一次,每秒一次或更快,具体取决于其他多少次。有DAG文件要解析。

Airflow实际上希望每个DAG在运行之间大致保持相同的布局。它还希望不断重新加载/解析DAG文件。因此,尽管您可以制作一个DAG文件,该文件在每次运行时根据某些外部数据动态地确定任务(最好是缓存在文件或pyc模块中,而不是像DB查找那样缓存在网络I / O中),但您会减慢整个调度循环的速度对于 all DAG),这不是一个好计划,因为您的图形和树形视图将使所有混乱,并且您的调度程序解析将因查找而增加负担。

您可以使可调用对象运行每个任务...

def make_tasks(context):
    du1 = DummyOperator(task_id='dummy1', dag=dag)
    du2 = DummyOperator(task_id='dummy2', dag=dag)
    du3 = DummyOperator(task_id='dummy3', dag=dag)
    du1.execute(context)
    du2.execute(context)
    du3.execute(context)

p = PythonOperator(
    provides_context=true,

但这是顺序的,您必须弄清楚如何使用python使它们并行(使用Future?),如果有异常,则整个任务将失败。而且,它绑定到一个执行者或工人,因此不使用气流的任务分配(kubernetes,mesos,芹菜)。

使用此方法的另一种方法是添加固定数量的任务(最大数量),并使用可调用对象将不需要的任务短路或为每个任务使用xcom推送参数,从而更改其行为在运行时但不更改DAG。

答案 1 :(得分:1)

关于您的代码示例,您永远不会调用在DAG中注册任务的函数。

要拥有一种动态任务,你可以让一个操作员根据某个状态做一些不同的操作,或者你可以使用一些ShortCircuitOperator根据状态跳过一些操作符。

答案 2 :(得分:1)

我感谢每个人在这里所做的所有工作,因为我面临创建动态结构化DAG的相同挑战。我已经犯了足够的错误,以至于不使用针对其设计的软件。如果我无法检查UI的整体运行情况并进行放大和缩小,则基本上使用气流功能,这也是我无论如何使用它的主要原因。我可以在函数内编写多处理代码,并完成它。

所有这些,我的解决方案是使用资源管理器(例如redis锁定),并使用DAG向该资源管理器写入有关运行内容以及运行方式等的数据;并让另一个DAG或以一定间隔运行的DAG轮询资源管理器,在运行之前将其锁定并在完成时将其删除。这样,至少我可以按预期使用气流,即使其规格不能完全满足我的需求。我将问题分解为更明确的部分。这些解决方案是有创意的,但是它们违反了设计并且未经开发人员测试。专门说有固定的结构化工作流程。除非重写核心气流代码并进行自我测试,否则我无法解决未经测试且违反设计的代码。我了解我的解决方案带来了锁定等所有方面的复杂性,但至少我知道其局限性。