标签: hadoop
我总是使用“dfs -get”或“dfs -cat”,但我想可能会有更好的东西。使用“dfs -cat | pv”,看来我的网络连接没有饱和(我只得到20MB /秒)。有没有办法将它并行化,也许?
答案 0 :(得分:2)
dfs -cat必须通过单个进程传输所有数据,并行性很差。
dfs -cat
我所做的是运行一个仅映射器的流式作业,转储到每个磁盘上的临时空间,然后rsync回到一台机器。这两个部分都很好地完善了集群;由于rsync很好地是幂等的,你可以在hdfs->本地部分的同时开始它。