应用错误收集

（HDFS）如何在群集中安全地复制大数据？

时间：2013-08-23 02:33:22

标签： hadoop hdfs

我必须制作大样本数据（比如说1TB）并且有大约20GB的文本文件。

所以我试着复制50次以使它更大，但每次我尝试hadoop fs -cp命令时，我的某些datanode会死掉。

我听说在UNIX中，当删除大数据时，可以使用SHRINK安全地从磁盘中删除数据。是否有像hadoop那样的东西来复制大数据？

简而言之，有没有办法在hadoop集群中安全地复制大数据？

还是我必须修改一些配置文件？

1 个答案:

答案 0 :(得分：0)

尝试 distcp 。它运行MR工作，用于复制数据，使我们能够利用Hadoop提供的并行性。