蜂巢:从表中删除重复的行

时间:2019-06-09 15:13:39

标签: hive hiveql

我有一个表,其中包含数百万条记录,并且所有记录都有重复项。所以我试图提取表中所有不同的行。 这是我正在使用的查询:

whatIsTheSum = sum('the' in s for nested in data for s in nested)

这是完成这项工作的有效方法吗?还是有一种方法可以删除重复的行而不创建新表?

1 个答案:

答案 0 :(得分:2)

您可以使用同一张表:

INSERT OVERWRITE table_name SELECT DISTINCT * FROM table_name;