我对这个用例感兴趣,以进行概念验证,我从一个包含大量ID的文件中读取文件,并且希望同时将这些ID作为func(id)进行处理。 是否可以通过CeleryExecutors配置气流以实现这一目标?
我看到了此链接:- Running more than 32 concurrent tasks in Apache Airflow
但是,如果id的数目是未知的并且可能在10,000甚至100,000之间,我想一次处理500-1000左右,该怎么办?
答案 0 :(得分:0)
Airflow可以并行执行任务,并且可以使用Celery来实现。其他所有事情都由您决定实施,但是您认为合适,没有任何关于Airflow / Celery的预期用途相关细节。 最后,如果您只关心与工作并行,而又不关心其他Airflow功能,那么单独使用Celery可能会更好。
有许多不同的方法可以解决此问题,但这是一些可以帮助您入门的食物: