Hadoop用Distcp替换cp

时间:2017-12-05 06:52:15

标签: hadoop

该过程正在将文件从一个hdfs位置复制到SAME群集中的另一个位置。这工作正常,但hadoop -cp需要时间。是否可以用相同群集的distcp替换它。或者是否有更好的解决方案来提高性能。

1 个答案:

答案 0 :(得分:1)

根据文档,distcp适用于在群集内以及在clousters之间复制数据:

https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html

  

DistCp Version 2(分布式副本)是一个用于大型的工具   群集间/群集内复制。 (...)最常见的调用   DistCp是群集间副本:

     

bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

     

这会将nn1上/ foo / bar下的命名空间扩展为临时命名空间   file,在一组map任务中划分其内容,并启动一个   将每个NodeManager从nn1复制到nn2。