如何将一个Hadoop集群中的数据复制到另一个Hadoop集群?

时间:2016-05-02 02:52:24

标签: hadoop

我是Apache Hadoop的新手。我们有一个Hadoop集群[1]填充了一些数据。还有另一个Hadoop集群[2]空了数据。将数据从[1]复制到[2]中的最简单和最优选的方法是什么?

1 个答案:

答案 0 :(得分:4)

您可以使用DistCp(分布式副本),它是一种允许您在群集之间或从/向不同文件系统(如S3或FTP服务器)复制数据的工具。

https://hadoop.apache.org/docs/r1.2.1/distcp2.html

您必须指定从外部群集复制数据的绝对路径:hdfs:// OtherClusterNN:port / path

此工具启动MapReduce作业,该作业从Hadoop FileSystem库中可用的任何类型的源并行复制数据,如HDFS,FTP,S3,AZURE(最新版本等)

要从不同版本的hadoop复制数据,而不是使用HDFS协议,您必须使用其中一个HftpFileSystem。