应用错误收集

Hive - 检查一个分区对大表的重复项的最有效方法

时间：2017-02-16 13:29:51

标签： hadoop hive hql data-quality

我正在创建一个在非常大的Hive表上运行的查询（每天插入数百万行）。

我需要检查（在添加行之后，而不是之前）检查重复项。我想知道下面是否是最有效的方法，或者我是否应该只是检查新插入的行是否与现有数据重复。例如，可以用OVER子句来完成吗？或者没有效率增益？

表在加载日期分区，我使用tez。

select 
col1, 
count(*) as col1_count 
from database.table
group by col1
having count(*) >=2;

0 个答案:

没有答案