我创建了一个名为employee(avro格式化)的hive表,其中包含部门分区。
我的HDFS位置有avro数据集。我的数据集也有部门ID。
我想用HDFS中的数据将数据导入Hive表。在导入期间,我希望数据保存在各自的分区中。
如何实现这一目标?任何想法?
答案 0 :(得分:0)
有两种方法可以做到。
1。Manual partitioning
将路径hdfs path
中的数据加载到表employee_table分区(deptId ='1')
将路径hdfs path
中的数据加载到表employee_table分区(deptId ='2')
2。Dynamic partitioning
一个。创建一个中间表
湾使用分区
创建员工表℃。将数据从中间表加载到分区表