我有一个oracle数据库,需要将数据导入到hive表中。每日导入数据大小约为1 GB。什么是更好的方法?
如果我将每天数据导入分区,如何处理更新后的值?
例如,如果我将今天的数据导入为分区,并且第二天有一些字段使用新值进行更新。
使用--lastmodified
我们可以获取值,但是我们需要将更新的值发送到新分区还是旧的(已经存在的)分区?
如果我发送到新分区,则数据将被复制。 如果我想发送到现有的分区,我们该如何实现它?
答案 0 :(得分:0)
您唯一的选择是使用“INSERT OVERWRITE TABLE ...”覆盖整个现有分区 问题是 - 您将在多长时间内不断更新数据? 我想到你可以考虑的3种方法: