与spark-sql面临的奇怪问题

时间:2018-06-01 04:00:40

标签: sql pyspark apache-spark-sql pyspark-sql

我有3平方英尺以下。

select count(distinct visitor_id)
from df_and_lkp_join_cache
--178996 

select count(distinct trim(visitor_id))
from df_and_lkp_join_cache
--178996

select count(distinct visitor_id)
from (select a.visitor_id, a.ip, b.visitor_id as visitor_id_b
      from df_and_lkp_join_cache a inner join
           df_not_matching_lkp b
           on a.ip = b.ip
      )
--628259

由于我的联接不在列visitor_id上,我希望第三个sql的输出计数小于或等于178996.但计数正在增加。

我无法理解spark-sql的这种行为。如果我的期望是错误的,请帮助我。这里出了什么问题。

0 个答案:

没有答案