应用错误收集

如何在不运行群集上的任何命令的情况下将文件从外部Hadoop群集复制到Amazon S3

时间：2018-03-07 23:07:48

标签： hadoop amazon-ec2 sqoop

我有一个场景，我必须将数据从Hadoop集群提取到AWS。我知道在hadoop集群上运行dist-cp是一种将数据复制到s3的方法，但我在这里有一个限制，我无法在集群中运行任何命令。我应该能够将hadoop集群中的文件提取到AWS中。数据在配置单元中可用。

我想到了以下选项：
1）来自Hive的Sqoop数据？有可能吗？
2）S3-distcp（在aws上运行它），如果是的话，需要什么配置？

任何建议？

1 个答案:

答案 0 :(得分：0)

如果从EC2-land可以看到hadoop集群，你可以在那里运行一个distcp命令，或者，如果它是一个特定的数据位，那么一些使用hdfs：//作为输入并写出的hive查询S3。你需要处理kerberos auth：你不能在非kerberized集群中使用distcp从kerberized集群中读取数据，尽管你可以采取其他方式。

您也可以在1+机器上本地运行distcp，但您受这些单独系统的带宽限制。当distcp在实际拥有数据的主机上安排上传时，它最好。