应用错误收集

如何使用AWS数据管道并行运行多个Hive活动？

时间：2017-05-03 19:50:04

标签： amazon-web-services amazon-s3 amazon-emr amazon-data-pipeline

我们希望使用AWS数据管道来自动化数据提取过程。在我们的摄取过程中，我们主要将CSV文件复制到S3存储桶中，并在其上运行Hive查询，以获得100多个不同的表。

我们想要创建一个管道，我们可以在其中处理所有100个表。

我想知道我们是否可以并行运行多个Hive活动和S3复制活动？如果管道活动是串行或并行运行，我在AWS文档中找不到此信息。

1 个答案:

答案 0 :(得分：1)

您可以使用HadoopActivity从Java可执行文件调用hive查询。 AWS Data Pipeline支持并行执行HadoopActivities。

文档：http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hadoopactivity.html