我必须制作大样本数据(比如说1TB)并且有大约20GB的文本文件。
所以我试着复制50次以使它更大,但每次我尝试hadoop fs -cp命令时,我的某些datanode会死掉。
我听说在UNIX中,当删除大数据时,可以使用SHRINK安全地从磁盘中删除数据。是否有像hadoop那样的东西来复制大数据?
简而言之,有没有办法在hadoop集群中安全地复制大数据?
还是我必须修改一些配置文件?
答案 0 :(得分:0)
尝试 distcp 。它运行MR工作,用于复制数据,使我们能够利用Hadoop提供的并行性。