蜂巢:识别确切的重复记录

时间:2019-05-09 17:32:19

标签: sql hive hiveql

我有一个要求。

我有一个包含200列的配置单元表。

现在,在删除所有相同的重复记录之后,我必须编写一个插入查询以将数据加载到另一个配置单元表中。

我知道我可以通过在()上使用行号()来达到目标​​。

代码段

Insert into table target 
Select col1,col2..col200 
from
(
Select col1,col2...col200,row_number () over ( partition by col1,col2...col200 order by null ) as rn from source 
) a 
where 
rn=1

但这很长,因为需要多次写入所有200列的名称,

有没有更简单的解决方案?

感谢您的建议。

1 个答案:

答案 0 :(得分:0)

您可以使用select distinct

Insert into table target 
    Select distinct col1,col2..col200 
    from source ;