(HDFS)如何在群集中安全地复制大数据?

时间:2013-08-23 02:33:22

标签: hadoop hdfs

我必须制作大样本数据(比如说1TB)并且有大约20GB的文本文件。

所以我试着复制50次以使它更大,但每次我尝试hadoop fs -cp命令时,我的某些datanode会死掉。

我听说在UNIX中,当删除大数据时,可以使用SHRINK安全地从磁盘中删除数据。是否有像hadoop那样的东西来复制大数据?

简而言之,有没有办法在hadoop集群中安全地复制大数据?

还是我必须修改一些配置文件?

1 个答案:

答案 0 :(得分:0)

尝试 distcp 。它运行MR工作,用于复制数据,使我们能够利用Hadoop提供的并行性。