如何使用阿里巴巴的DistCp工具增量迁移HDFS数据

时间:2018-12-30 16:26:53

标签: alibaba-cloud

我正在尝试使用阿里巴巴E-Mapreduce中的DistCp工具迁移HDFS数据。我了解如何进行完整的数据迁移。

命令:

hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse

我需要在上面的代码中添加哪些参数以实现增量同步?

1 个答案:

答案 0 :(得分:0)

为了进行增量数据同步,您将必须添加-update-delete标志,这些标志应负责同步。

hadoop distcp -pbugpcax -m 1000 -bandwidth 30  -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse

有关这两个参数的更多信息:

-update,验证源文件和目标文件的校验和以及文件大小。如果比较的文件大小不同,则源文件将更新目标群集数据。如果在新旧集群同步期间有数据写入,则-update可用于增量数据同步。

-delete,如果旧群集中的数据不再存在,则新群集中的数据将被删除。

我希望这会有所帮助!