有没有办法阻止在Hive中插入重复的行?

时间:2017-06-28 08:47:43

标签: hadoop hive orc

我有一张ORC表。我使用其他表中的数据填充它,如下所示:

INSERT INTO TABLE orc_table_name SELECT * FROM other_table_name

有什么办法可以防止在ORC表中插入重复的条目?

2 个答案:

答案 0 :(得分:1)

您可以不在命令中使用请参阅下面的一般代码:它根据之前未插入TABLE_1中的value1的事实将记录插入到orc_table_name。

INSERT INTO orc_table_name
  (Value1, Value2)
SELECT t1.Value1,
       t1.Value2
  FROM TABLE_1 t1
 WHERE t1.Value1 NOT IN (SELECT Value1 FROM orc_table_name)

答案 1 :(得分:-1)

INSERT INTO orc_table_name(field1,field2....fieldn)
select field1,field2... field(n-1),MIN(fieldn) as fieldn
from other_table_name
Group By field1,field2...field(n-1)