如何在不运行群集上的任何命令的情况下将文件从外部Hadoop群集复制到Amazon S3

时间:2018-03-07 23:07:48

标签: hadoop amazon-ec2 sqoop

我有一个场景,我必须将数据从Hadoop集群提取到AWS。 我知道在hadoop集群上运行dist-cp是一种将数据复制到s3的方法,但我在这里有一个限制,我无法在集群中运行任何命令。我应该能够将hadoop集群中的文件提取到AWS中。数据在配置单元中可用。

我想到了以下选项:
1)来自Hive的Sqoop数据?有可能吗?
2)S3-distcp(在aws上运行它),如果是的话,需要什么配置?

任何建议?

1 个答案:

答案 0 :(得分:0)

如果从EC2-land可以看到hadoop集群,你可以在那里运行一个distcp命令,或者,如果它是一个特定的数据位,那么一些使用hdfs://作为输入并写出的hive查询S3。你需要处理kerberos auth:你不能在非kerberized集群中使用distcp从kerberized集群中读取数据,尽管你可以采取其他方式。

您也可以在1+机器上本地运行distcp,但您受这些单独系统的带宽限制。当distcp在实际拥有数据的主机上安排上传时,它最好。

最后,如果它是您感兴趣的增量备份,您可以使用HDFS审核日志作为已更改文件的来源...这是增量备份工具倾向于使用的