标签: hadoop hive hql data-quality
我正在创建一个在非常大的Hive表上运行的查询(每天插入数百万行)。
我需要检查(在添加行之后,而不是之前)检查重复项。我想知道下面是否是最有效的方法,或者我是否应该只是检查新插入的行是否与现有数据重复。例如,可以用OVER子句来完成吗?或者没有效率增益?
表在加载日期分区,我使用tez。
select col1, count(*) as col1_count from database.table group by col1 having count(*) >=2;