当前结构: 我目前正在服务器上部署气流。我有一台专用于气流的服务器。还有其他很少的服务器作为工作服务器,其中每个服务器都有执行气流任务的应用程序。
用法: 对于每个DAG,我正在使用SSHOperators在工作服务器上执行SSH命令,以完成任务。
配置: 对于每个任务,它将需要访问一个配置文件,该文件包含该操作的文件路径和键值。每次DAG运行时,配置文件可能会略有不同。 我确实知道有很多方法可以触发DAG,包括
关注点:
我目前正在通过REST API将配置作为JSON字符串(2-3KB)传递,并将配置嵌入SSH bash命令中
/task/foo --do-something --config "{{ dag_run.conf["foo"] }}"
。
我担心这是否有一天会导致Airflow数据库过载,或者有人错误地发送了巨大的配置(> 10MB)。
问题: 我想知道用配置触发气流DAG的理想方法是什么?如何存储run_dag配置?是否有任何垃圾收集功能可以定期清除缓存的配置?