我是Apache Hadoop的新手。我们有一个Hadoop集群[1]填充了一些数据。还有另一个Hadoop集群[2]空了数据。将数据从[1]复制到[2]中的最简单和最优选的方法是什么?
答案 0 :(得分:4)
您可以使用DistCp(分布式副本),它是一种允许您在群集之间或从/向不同文件系统(如S3或FTP服务器)复制数据的工具。
https://hadoop.apache.org/docs/r1.2.1/distcp2.html
您必须指定从外部群集复制数据的绝对路径:hdfs:// OtherClusterNN:port / path
此工具启动MapReduce作业,该作业从Hadoop FileSystem库中可用的任何类型的源并行复制数据,如HDFS,FTP,S3,AZURE(最新版本等)
要从不同版本的hadoop复制数据,而不是使用HDFS协议,您必须使用其中一个HftpFileSystem。