从NFS挂载实现并行复制到hadoop的最佳和快速方法是什么? 我们有一个包含大量文件的mount,我们需要将它复制到hdfs。
一些选项:
此致 JD
答案 0 :(得分:1)
我认为关键问题是NFS链接的源端是什么?如果它是一个NAS,你可能会有更好的情况,你有几个客户端机器同时运行copyFromLocal(每个一个)。当您从同一客户端同时读取超过5-10个磁盘时,即使是高性能NAS也会感到不满。我会建模以下(全部使用copyFromLocal):
我肯定会避免M / R,因为流程启动成本太高,甚至distcp也不会这么做,因为你无法控制源NAS被击中的程度(这将是是你的瓶颈。)