使用配置触发气流DAG的理想方法

时间:2020-09-23 02:14:15

标签: config airflow

当前结构: 我目前正在服务器上部署气流。我有一台专用于气流的服务器。还有其他很少的服务器作为工作服务器,其中每个服务器都有执行气流任务的应用程序。

用法: 对于每个DAG,我正在使用SSHOperators在工作服务器上执行SSH命令,以完成任务。

配置: 对于每个任务,它将需要访问一个配置文件,该文件包含该操作的文件路径和键值。每次DAG运行时,配置文件可能会略有不同。 我确实知道有很多方法可以触发DAG,包括

  • 在运行时通过CLI或REST API传递配置对象
  • 在工作服务器上存储了一个config.json,并且每个 在任务开始时加载它的任务
  • 将配置信息保存在气流管理页面中,并使用xcom访问config元素

关注点: 我目前正在通过REST API将配置作为JSON字符串(2-3KB)传递,并将配置嵌入SSH bash命令中 /task/foo --do-something --config "{{ dag_run.conf["foo"] }}"。 我担心这是否有一天会导致Airflow数据库过载,或者有人错误地发送了巨大的配置(> 10MB)。

问题: 我想知道用配置触发气流DAG的理想方法是什么?如何存储run_dag配置?是否有任何垃圾收集功能可以定期清除缓存的配置?

0 个答案:

没有答案