该过程正在将文件从一个hdfs位置复制到SAME群集中的另一个位置。这工作正常,但hadoop -cp需要时间。是否可以用相同群集的distcp替换它。或者是否有更好的解决方案来提高性能。
答案 0 :(得分:1)
根据文档,distcp适用于在群集内以及在clousters之间复制数据:
https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html
DistCp Version 2(分布式副本)是一个用于大型的工具 群集间/群集内复制。 (...)最常见的调用 DistCp是群集间副本:
bash$ hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
这会将nn1上/ foo / bar下的命名空间扩展为临时命名空间 file,在一组map任务中划分其内容,并启动一个 将每个NodeManager从nn1复制到nn2。