优化气流损失

时间:2019-08-13 11:17:33

标签: python-3.x concurrency parallel-processing airflow

我是Apache Airflow的新手。我创建了一个气流障碍,其中有几个并行运行的图像处理任务。基本上,我试图读取PDF(由10页组成),将每一页并行转换为图像,在每一页上进行一些图像处理,然后将输出转储到JSON中(将每一页的输出合并后)。查看下面的图片:

enter image description here

到目前为止,我已使用 本地执行程序 (默认配置) 最高8核cpu(单机) 。该过程大约需要 40分钟。 我还通过将max_threads更改为8,将parallelism更改为8,将dag_concurrency更改为8来调整了配置。 花了大约20分钟

我希望整个过程可以在 5-10分钟内完成相同数量的页面。是否可以使用当前的执行程序配置?

非常感谢。

0 个答案:

没有答案