如何设置AWS Data Pipeline以将内部部署的Hive数据复制到S3?

时间:2017-07-17 18:03:06

标签: amazon-web-services amazon-data-pipeline

我阅读了文档,其中讨论了MySQL和RDS。但是在将前提Hive / Hadoop数据转移到S3时找不到任何东西。我感谢任何链接或文章。

2 个答案:

答案 0 :(得分:1)

通常,Data Pipeline在AWS云中实例化Ec2Resource实例,并在此实例上运行TaskRunner。管道中相应的活动标记为' runsOn'然后在此实例上运行Ec2Resource。有关详细信息,请参阅文档here

但是在EC2实例上运行的任何S3DistCp都无法访问您的内部部署HDFS。要访问内部部署资源,必须由在内部部署框上运行的TaskRunner执行相应的活动。有关如何设置此内容的详细信息,请参阅文档here

TaskRunner是AWS提供的java独立应用程序,可以在任何自我管理的盒子上手动运行。它通过AWS API连接到数据管道服务,以获取有待执行的任务的元数据,然后在运行它的同一个框中执行它们。

在自动化Ec2Resource配置的情况下,数据管道实例化ec2实例并在其上运行相同的TaskRunner,并且所有这些对我们都是透明的。

答案 1 :(得分:0)

您可以使用MDN将HDFS数据从内部部署复制到S3,反之亦然。