Question

Using Airflow 1.8.0 and python 2.7

具有以下DAG（简体）：

(Phase 1)-->(Phase 2)

在阶段1中，我正在触发一个异步过程，该过程很耗时，并且最多可以运行2天，当该过程结束时，它将在S3上写入一些有效负载。在此期间，我希望DAG仅在S3有效负载存在时等待并继续到阶段2。

我想到了两种解决方案：

第1阶段开始时，请使用experimental REST API暂停DAG，并在过程结束后恢复。
等待使用每X分钟检查一次S3有效载荷的运算符。

我不能使用选项1，因为我的管理员不允许使用实验性的API，并且选项2似乎是一种不好的做法（检查每X个细微的变化）。

还有其他选择可以解决我的任务吗？

Answer 1

我认为选项（2）是“正确的方法”，您可以对其进行一些优化：

BaseSensorOperator支持poke_interval，因此S3KeySensor应该可以增加两次尝试之间的时间。

Poke_interval-作业之间应等待的时间（以秒为单位）每次尝试

此外，您可以尝试使用mode并将其切换到reschedule：

模式：传感器的运行方式。选项为：{ poke | reschedule }，默认值为poke。设置为poke时，传感器占用其工作槽整个执行时间并在两次戳之间休眠。如果传感器的预期运行时间很短或拨动间隔很短是必须的。请注意，传感器将固定在工作槽上，并且在此模式下，在传感器运行期间的一个池槽。设置为reschedule时，传感器任务将在以下情况释放工作槽该标准尚未满足，并将在以后重新安排。采用如果符合条件的时间预计为相当长。戳间隔应超过一分钟，以达到避免在调度程序上加载过多的负载。

不确定Airflow 1.8.0-找不到旧文档（我假设支持poke_interval，但不支持mode）。

Airflow / Python-如何基于外部进程恢复DAG流

1 个答案: