我们希望使用AWS数据管道来自动化数据提取过程。在我们的摄取过程中,我们主要将CSV文件复制到S3存储桶中,并在其上运行Hive查询,以获得100多个不同的表。
我们想要创建一个管道,我们可以在其中处理所有100个表。
我想知道我们是否可以并行运行多个Hive活动和S3复制活动?如果管道活动是串行或并行运行,我在AWS文档中找不到此信息。
答案 0 :(得分:1)
您可以使用HadoopActivity从Java可执行文件调用hive查询。 AWS Data Pipeline支持并行执行HadoopActivities。
文档:http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hadoopactivity.html