我有3平方英尺以下。
select count(distinct visitor_id)
from df_and_lkp_join_cache
--178996
select count(distinct trim(visitor_id))
from df_and_lkp_join_cache
--178996
select count(distinct visitor_id)
from (select a.visitor_id, a.ip, b.visitor_id as visitor_id_b
from df_and_lkp_join_cache a inner join
df_not_matching_lkp b
on a.ip = b.ip
)
--628259
由于我的联接不在列visitor_id上,我希望第三个sql的输出计数小于或等于178996.但计数正在增加。
我无法理解spark-sql的这种行为。如果我的期望是错误的,请帮助我。这里出了什么问题。