使用Intermediate Spool在HIVE中写入1个记录

时间:2018-06-07 19:49:57

标签: hive

我有一个计算密集型查询,我在FULL外连接上比较两个表PREV_HIST和CURR_HIST,并确定数据的变化。

我需要多次在目标表中写入CHANGED记录。一次使用带有新值的“CHANGED”标志和带有旧值的“DELETE”标志。

我想到的解决方案: 1.在目标中添加Prev_Value列,但这需要为每个比较属性添加一个列效率不高的列。 2.使用“CHANGED”记录创建表,然后将其连接回PREV_HISTORY TABLE以获取旧值,并将“CHANGED”记录重新插回“DELETE”记录。

上述两种方法都会导致对大表的多次探测,我想避免这种情况。 HIVE中是否有一种方法可以保持FULL OUTER JOIN的中间假脱机结果,并使用它来为'CHANGED'数据创建两个单独的记录?

由于

0 个答案:

没有答案