我有一个场景,我必须将数据从Hadoop集群提取到AWS。 我知道在hadoop集群上运行dist-cp是一种将数据复制到s3的方法,但我在这里有一个限制,我无法在集群中运行任何命令。我应该能够将hadoop集群中的文件提取到AWS中。数据在配置单元中可用。
我想到了以下选项:
1)来自Hive的Sqoop数据?有可能吗?
2)S3-distcp(在aws上运行它),如果是的话,需要什么配置?
任何建议?
答案 0 :(得分:0)
如果从EC2-land可以看到hadoop集群,你可以在那里运行一个distcp命令,或者,如果它是一个特定的数据位,那么一些使用hdfs://作为输入并写出的hive查询S3。你需要处理kerberos auth:你不能在非kerberized集群中使用distcp从kerberized集群中读取数据,尽管你可以采取其他方式。
您也可以在1+机器上本地运行distcp,但您受这些单独系统的带宽限制。当distcp在实际拥有数据的主机上安排上传时,它最好。
最后,如果它是您感兴趣的增量备份,您可以使用HDFS审核日志作为已更改文件的来源...这是增量备份工具倾向于使用的