我在hdfs中有一个目录,每2天填充一次文件。我想将这个目录中的所有文件复制到另一个文件中,如果今天有新文件,我希望将文件复制到重复目录。
我们怎样才能在Hdfs中做到这一点。
我知道我们可以使用rsync在linux中做到这一点。在Hdfs中也有这样的方法吗?
答案 0 :(得分:3)
不,HDFS没有可用的文件同步方法。您必须手动或通过任何计划程序(hdfs dfs -cp
)执行hadoop distcp
或cron
。
如果文件数量更多,则首选distcp
。
hadoop distcp -update <src_dir> <dest_dir>
如果源和目标的大小,块大小或校验和不同,-update
标志将会覆盖。