将大量数据从HDFS移动到HDFS

时间:2013-09-02 15:50:53

标签: multithreading hadoop hdfs

我从不同的提供商处获得了大量不同格式的数据,我希望每天将这些数据移动到具有通用格式的公共位置。所以,我应该每天复制大约数TB的数据。

我想立即避免任何转换,因此,我只想将X TB的数据从我的HDFS移到HDFS中的另一个地方。这可能需要很长时间,有人知道如何快速移动数据吗?我一直在考虑多线程,它可以工作吗?我试着让很多线程同时复制文件。现在,只有一个主题。

1 个答案:

答案 0 :(得分:0)

尝试使用distcp,这是一种用于大型群间/群集内复制的工具。

请参阅http://hadoop.apache.org/docs/r0.19.0/distcp.html