将数据从Hadoop DFS传​​输到本地文件系统的最快方法是什么?

时间:2011-01-23 18:02:17

标签: hadoop

我总是使用“dfs -get”或“dfs -cat”,但我想可能会有更好的东西。使用“dfs -cat | pv”,看来我的网络连接没有饱和(我只得到20MB /秒)。有没有办法将它并行化,也许?

1 个答案:

答案 0 :(得分:2)

dfs -cat必须通过单个进程传输所有数据,并行性很差。

我所做的是运行一个仅映射器的流式作业,转储到每个磁盘上的临时空间,然后rsync回到一台机器。这两个部分都很好地完善了集群;由于rsync很好地是幂等的,你可以在hdfs->本地部分的同时开始它。