在Airflow中使用DockerOperator并行化文件操作的方法是什么?

时间:2019-07-03 14:08:40

标签: python docker parallel-processing etl airflow

因此,快速浏览一下我的气流DAG。本质上,我要做的是使用第一个DockerOperator提取一些zip文件(2个文件),然后提取然后将其提取到第二个DockerOperator(4000个文件)中。我现在需要解密这些〜4000个文件。

  • 有没有办法让每个X文件增加1个容器来并行解密文件?
  • 如果可能的话,如何阻止它们尝试解密相同的文件(它们都可以访问将zip解压缩到的相同卷)
  • 我应该用完全不同的方式来做
    with DAG('data_pipeline', default_args=default_args, schedule_interval=timedelta(days=7), catchup=False) as dag:

        start = DummyOperator(
            task_id='start'
        )

        print_date = BashOperator(
            task_id='print_date',
            bash_command='date'
        )

        fetch_data = DockerOperator(

        )

        extract_data = DockerOperator(

        )

        end = DummyOperator(
            task_id='end'
        )

        start >> print_date >> fetch_data >> extract_data >> end

对这种方法提出任何批评,请记住我想坚持使用气流和容器来解决我的问题,Kubernetes当然很好,我计划在某个阶段将其解决方案迁移到该

0 个答案:

没有答案