应用错误收集

将数据从Hadoop DFS传输到本地文件系统的最快方法是什么？

时间：2011-01-23 18:02:17

标签： hadoop

我总是使用“dfs -get”或“dfs -cat”，但我想可能会有更好的东西。使用“dfs -cat | pv”，看来我的网络连接没有饱和（我只得到20MB /秒）。有没有办法将它并行化，也许？

1 个答案:

答案 0 :(得分：2)

dfs -cat必须通过单个进程传输所有数据，并行性很差。

我所做的是运行一个仅映射器的流式作业，转储到每个磁盘上的临时空间，然后rsync回到一台机器。这两个部分都很好地完善了集群;由于rsync很好地是幂等的，你可以在hdfs-＆gt;本地部分的同时开始它。