Hive多级分区,插入覆盖不会删除内部分区

时间:2018-12-21 15:21:33

标签: hive amazon-emr

我有一个配置单元表,它具有3个这样的分区级别

天/“ $类别” /小时

这是一个外部表,其中包含存储在AWS s3中的文件。

这是我的问题。插入是使用动态分区执行的。在插入特定日期(第1级分区)后,假设第二个分区看起来像这样。

day =“ $ date” / category = a

day =“ $ date” / category = b

day =“ $ date” / category = c

但是,如果发生这种情况是错误的,则第二分区级别应具有类别“ a”,“ b”和“ d”。因此,我决定覆盖整个顶级分区。覆盖之后,表目录结构如下所示:

day =“ $ date” / category = a

day =“ $ date” / category = b

day =“ $ date” / category = c

day =“ $ date” / category = d

如您所见,类别='d'的分区已创建,但类别='c'的分区仍然存在。理想情况下,我希望将其删除,因为那是一个错误。

有关如何执行此操作的任何建议。

谢谢!

0 个答案:

没有答案