使用收集聚合的Hive

时间:2014-02-26 06:12:41

标签: hadoop hive collect

我想从配置单元表中删除重复的值 所以我正在使用此查询

INSERT INTO TABLE final_table 
 select 
   A,
   B,
   collect(coalesce(C,0))[0],
   collect(coalesce(D,0))[0],
   collect(coalesce(E,0))[0],
   collect(coalesce(F,0))[0],
   collect(coalesce(G,0))[0]
 from 
   temp_table
 group by 
   A,B ;

因为A,B是主键。

但是在结果中我仍然会得到重复的值。 查询有问题吗?

1 个答案:

答案 0 :(得分:0)

尝试使用'collect_set'UDF,或收集到地图中,并使用'map_keys'从地图中获取密钥。