我想将hive表从一个Hadoop集群A导出到另一个B。
我有两种方法:
首先:
导出到A的hdfs(相同的群集)
distcp 到群集B的hdfs(不同群集)
第二
distcp 会增加额外的优势吗?
答案 0 :(得分:0)
不清楚你的意思是"导出到HDFS"并且"导入Hive"。无论如何,Hive数据文件 存储在HDFS中!
对于托管表,所有这些数据文件位于相同的"位置"以确定的方式,最简单的事情是:
distcp
来自" location"的整个HDFS树在A到"位置"在B 我们采取的措施是将一些Prod数据(ORC w / GZip压缩,按月划分)克隆到测试群集。
请注意,您可以在单个子目录上使用多个distcp
命令将副本限制为分区列表。