并行复制到HDFS

时间:2011-08-13 17:49:25

标签: hadoop hdfs

从NFS挂载实现并行复制到hadoop的最佳和快速方法是什么? 我们有一个包含大量文件的mount,我们需要将它复制到hdfs。

一些选项:

  1. 以多线程方式运行copyFromLocal
  2. 以隔离的方式使用distcp。
  3. 我可以只写一张地图来复制吗?
  4. 此致 JD

1 个答案:

答案 0 :(得分:1)

我认为关键问题是NFS链接的源端是什么?如果它是一个NAS,你可能会有更好的情况,你有几个客户端机器同时运行copyFromLocal(每个一个)。当您从同一客户端同时读取超过5-10个磁盘时,即使是高性能NAS也会感到不满。我会建模以下(全部使用copyFromLocal):

  • NAS - > 1客户 - > 5,10,50,100个并行流程
  • NAS - > 5个客户 - >每个都有5,10,50,100个并行进程

我肯定会避免M / R,因为流程启动成本太高,甚至distcp也不会这么做,因为你无法控制源NAS被击中的程度(这将是是你的瓶颈。)