我是Apache Airflow
的新手。我创建了一个气流障碍,其中有几个并行运行的图像处理任务。基本上,我试图读取PDF(由10页组成),将每一页并行转换为图像,在每一页上进行一些图像处理,然后将输出转储到JSON
中(将每一页的输出合并后)。查看下面的图片:
到目前为止,我已使用 本地执行程序 (默认配置) 最高8核cpu(单机) 。该过程大约需要 40分钟。
我还通过将max_threads
更改为8
,将parallelism
更改为8
,将dag_concurrency
更改为8
来调整了配置。 花了大约20分钟。
我希望整个过程可以在 5-10分钟内完成相同数量的页面。是否可以使用当前的执行程序配置?
非常感谢。