如何通过保留修改时间将HDFS文件从一个群集复制到另一个群集

时间:2017-02-07 16:21:04

标签: hadoop hdfs distcp bigdata

我必须将一些HDFS文件从我的生产群集移动到开发群集。在根据文件修改时间移动到dev集群后,我必须测试HDFS文件的一些操作。需要具有不同日期的文件才能在开发中进行测试。

我尝试使用DISTCP,修改时间正在更新当前时间。我使用我在distcp version2 guide

找到的许多参数检查了Distcp

有没有其他方法可以在不改变修改时间的情况下获取文件?或者我可以在将文件导入hdfs后手动更改修改时间吗?

提前致谢

1 个答案:

答案 0 :(得分:1)

-pt命令中使用hadoop distcp标志。这将p保留{dist}的文件的t imestamp(修改时间)。

hadoop distcp -pt hdfs://src_cluster/file hdfs://dest_cluster/file

使用Hadoop-2.7.3进行测试

请参阅最新的Distcp Guide