我正在使用Spark 2.2.2。我有一个表t1,列c0,c1,c2,c3 ... cn。和SQL一样:
Select
c0,
count(distinct if(condition(c1_1),c0,null)) as num_c1_1,
count(distinct if(condition(c1_2),c0,null)) as num_c1_2,
count(distinct if(condition(c2_1),c0,null)) as num_c2_1,
...
from t1 where xxx
group by c0
我知道计数不同很慢。但是我没有其他方法。有超过1000个不同的计算。任何身体都可以帮忙吗?
谢谢。