尽管catchup = False,schedule_interval = datetime.timedelta(hours = 2),气流仍在运行我的DAG

时间:2019-07-30 23:26:38

标签: airflow-scheduler

类似于先前的问题,但给出的答案均无效。我有DAG:

import datetime
import os

from airflow import DAG
from airflow.contrib.operators.dataflow_operator import DataflowTemplateOperator
from airflow.operators import BashOperator

PROJECT = os.environ['PROJECT']
GCS_BUCKET = os.environ['BUCKET']
API_KEY = os.environ['API_KEY']

default_args = {
    'owner': 'me',
    'start_date': datetime.datetime(2019, 7, 30),
    'depends_on_past': False,
    'email': [''],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 0,
    'retry_delay': datetime.timedelta(hours=1),
    'catchup': False
}

dag = DAG('dag-name',
          schedule_interval=datetime.timedelta(hours=2),
          default_args=default_args,
          max_active_runs=1,
          concurrency=1,
          catchup=False)

DEFAULT_OPTIONS_TEMPLATE = {
    'project': PROJECT,
    'stagingLocation': 'gs://{}/staging'.format(GCS_BUCKET),
    'tempLocation': 'gs://{}/temp'.format(GCS_BUCKET)
}

def my-dataflow-job(template_location, name):
    run_time = datetime.datetime.utcnow()
    a_value = run_time.strftime('%Y%m%d%H')

    t1 = DataflowTemplateOperator(
        task_id='{}-task'.format(name),
        template=template_location,
        parameters={'an_argument': a_value},
        dataflow_default_options=DEFAULT_OPTIONS_TEMPLATE,
        poll_sleep=30
    )

    t2 = BashOperator(
        task_id='{}-loader-heartbeat'.format(name),
        bash_command='curl --fail -XGET "[a heartbeat URL]" --header "Authorization: heartbeat_service {1}"'.format(name, API_KEY)
    )

    t1 >> t2

with dag:
    backup_bt_to_bq('gs://[path to gcs]'.format(GCS_BUCKET), 'name')

如您所见,我正在努力防止Airflow尝试回填。但是,当我部署DAG时(当天晚些时候,2019年7月30日),它只是继续一个接一个地运行DAG,一个又一个地运行DAG。

由于此任务正在移动一些数据,所以这是不可取的。如何获得气流以尊重“每隔一小时运行一次” schedule_interval?

如您所见,我在DAG参数和默认参数中都设置了catchup: False(以防万一,请在DAG参数中以它们开头)。重试延迟也很长。

每个DAG运行都报告为成功。 我正在运行以下版本:

composer-1.5.0-airflow-1.10.1

我的下一步是kubernetes cron ...

1 个答案:

答案 0 :(得分:0)

我怀疑您初次创建dag时没有catchup=False。我认为在初始dag创建之后,气流可能无法识别出catchup参数的变化。

尝试重命名它,看看会发生什么。例如。添加一个v2并启用它。启用它后,即使catchup为false,它也会运行一次,因为存在有效的已完成间隔(即当前时间> = start_time + schedule_interval),仅此而已。

当然,请使用不会做任何昂贵操作的假运算符进行测试。