如何使用AWS数据管道并行运行多个Hive活动?

时间:2017-05-03 19:50:04

标签: amazon-web-services amazon-s3 amazon-emr amazon-data-pipeline

我们希望使用AWS数据管道来自动化数据提取过程。在我们的摄取过程中,我们主要将CSV文件复制到S3存储桶中,并在其上运行Hive查询,以获得100多个不同的表。

我们想要创建一个管道,我们可以在其中处理所有100个表。

我想知道我们是否可以并行运行多个Hive活动和S3复制活动?如果管道活动是串行或并行运行,我在AWS文档中找不到此信息。

1 个答案:

答案 0 :(得分:1)

您可以使用HadoopActivity从Java可执行文件调用hive查询。 AWS Data Pipeline支持并行执行HadoopActivities。

文档:http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hadoopactivity.html

相关问题