作为我的Spark
管道的一部分,我必须在EMR
/ S3
上执行以下任务:
S3 bucket
下的所有文件/目录S3 bucket
根据我目前的知识,Airflow
不会为这些任务提供operator
s / hook
s。因此,我计划按以下方式实现它们:
S3Hook
以添加在指定的aws s3 rm
上执行S3 bucket
的功能SSHExecuteOperator
执行hadoop distcp
我的问题是:
Airflow
已经提供了这些功能吗?我正在使用:
Airflow 1.9.0
[Python 3.6.6
](一旦it is released将升级到Airflow 1.10
)EMR 5.13.0
答案 0 :(得分:1)
delete
是一种基本操作,是,但不是hadoop distcp
。要回答您的问题:
不确定标准S3_Hook为什么不具有删除功能。可能是因为s3 provides an "eventually consistent" Consistency Model(可能不是原因,但还是要牢记在心)