如何处理Spark SQL中不同的大量计数

时间:2019-05-08 02:42:49

标签: apache-spark apache-spark-sql

我正在使用Spark 2.2.2。我有一个表t1,列c0,c1,c2,c3 ... cn。和SQL一样:

Select 
    c0,
    count(distinct if(condition(c1_1),c0,null)) as num_c1_1,
    count(distinct if(condition(c1_2),c0,null)) as num_c1_2,
    count(distinct if(condition(c2_1),c0,null)) as num_c2_1,
    ...
from t1 where xxx
group by c0

我知道计数不同很慢。但是我没有其他方法。有超过1000个不同的计算。任何身体都可以帮忙吗?

谢谢。

0 个答案:

没有答案