如何从配置单元表中删除字符串列中的重复项

时间:2017-08-03 22:20:15

标签: hive duplicates

我的列(字符串)空间用重复值分隔。我想删除重复项: e.g。

column_name
-----------------
gun gun man gun man
shuttle enemy enemy run
hit chase

我想要的结果如下:

column_name
----------------
gun man
shuttle enemy run
hit chase

我正在使用hive数据库。请帮助。

1 个答案:

答案 0 :(得分:-1)

没有自定义UDF,这是仅使用查询的一种方法。

select id, concat_ws(' ',collect_set(splited)) as column_name
from
(
  select id, splited
  from tbl_name
  LATERAL VIEW explode(split(column_name,' ')) t as splited
  group by id, splited
) x
group by id