如何安全地将数据追加到分区的Hive表中?

时间:2019-12-24 10:26:24

标签: hadoop hive

我有一个生产配置单元表,该表由date分区。新数据每小时生成一次,我需要将新数据合并到配置单元表中。
如果有重复的数据插入请求或每小时请求中的数据重叠,我想在每次更新时对每个分区执行dedup。

我查看了How to Append new data to already existing hive table 的答案,但仍然有些困惑:

  1. 如何将新数据合并到现有分区中?
    我的意思是,我应该为新数据创建一个tmp表,将现有数据拉入tmp表,进行dudup并OVERWRITE回到生产表的分区吗?

  2. 在覆盖生产配置单元表的分区期间是否可能发生"dirty read"?有什么解决办法吗?
    我想知道是否有原子RENAME之类的东西。

0 个答案:

没有答案