我有一个生产配置单元表,该表由date
分区。新数据每小时生成一次,我需要将新数据合并到配置单元表中。
如果有重复的数据插入请求或每小时请求中的数据重叠,我想在每次更新时对每个分区执行dedup。
我查看了How to Append new data to already existing hive table 的答案,但仍然有些困惑:
如何将新数据合并到现有分区中?
我的意思是,我应该为新数据创建一个tmp表,将现有数据拉入tmp表,进行dudup并OVERWRITE
回到生产表的分区吗?
在覆盖生产配置单元表的分区期间是否可能发生"dirty read"
?有什么解决办法吗?
我想知道是否有原子RENAME
之类的东西。