将数据从一个HDFS目录连续复制到另一个目录

时间:2017-02-24 19:12:23

标签: linux hadoop hdfs rsync

我在hdfs中有一个目录,每2天填充一次文件。我想将这个目录中的所有文件复制到另一个文件中,如果今天有新文件,我希望将文件复制到重复目录。

我们怎样才能在Hdfs中做到这一点。

我知道我们可以使用rsync在linux中做到这一点。在Hdfs中也有这样的方法吗?

1 个答案:

答案 0 :(得分:3)

不,HDFS没有可用的文件同步方法。您必须手动或通过任何计划程序(hdfs dfs -cp)执行hadoop distcpcron

如果文件数量更多,则首选distcp

hadoop distcp -update <src_dir> <dest_dir>

如果源和目标的大小,块大小或校验和不同,-update标志将会覆盖。