应用错误收集

如何将一个Hadoop集群中的数据复制到另一个Hadoop集群？

时间：2016-05-02 02:52:24

标签： hadoop

我是Apache Hadoop的新手。我们有一个Hadoop集群[1]填充了一些数据。还有另一个Hadoop集群[2]空了数据。将数据从[1]复制到[2]中的最简单和最优选的方法是什么？

1 个答案:

答案 0 :(得分：4)

您可以使用DistCp（分布式副本），它是一种允许您在群集之间或从/向不同文件系统（如S3或FTP服务器）复制数据的工具。

https://hadoop.apache.org/docs/r1.2.1/distcp2.html

您必须指定从外部群集复制数据的绝对路径：hdfs：// OtherClusterNN：port / path

此工具启动MapReduce作业，该作业从Hadoop FileSystem库中可用的任何类型的源并行复制数据，如HDFS，FTP，S3，AZURE（最新版本等）

要从不同版本的hadoop复制数据，而不是使用HDFS协议，您必须使用其中一个HftpFileSystem。