我有一个表,其中包含数百万条记录,并且所有记录都有重复项。所以我试图提取表中所有不同的行。 这是我正在使用的查询:
whatIsTheSum = sum('the' in s for nested in data for s in nested)
这是完成这项工作的有效方法吗?还是有一种方法可以删除重复的行而不创建新表?
答案 0 :(得分:2)
您可以使用同一张表:
INSERT OVERWRITE table_name SELECT DISTINCT * FROM table_name;