内连接返回的记录多于原始表

时间:2017-04-04 11:07:38

标签: sql hive

我试图计算Hive表t1中具有出现在Hive表t2中的profile_emails的数据记录。多个记录在t1中可以具有相同的profile_email,但t2.profile_email是唯一的。我希望结果计数<&lt; 11,681,830(因为有些t1.profile_emails不在t2中)。相反,它大量爆炸。如何通过内连接实现这一点? (以及如何解决?)

select count(*) from t1;
#11,681,830

select count(*) from t2;
#1,661,773

SELECT count (*) FROM t1
inner JOIN t2 ON t1.profile_email = t2.profile_email
#1,519,465,221

0 个答案:

没有答案