应用错误收集

如何处理Spark SQL中不同的大量计数

时间：2019-05-08 02:42:49

标签： apache-spark apache-spark-sql

我正在使用Spark 2.2.2。我有一个表t1，列c0，c1，c2，c3 ... cn。和SQL一样：

Select 
    c0,
    count(distinct if(condition(c1_1),c0,null)) as num_c1_1,
    count(distinct if(condition(c1_2),c0,null)) as num_c1_2,
    count(distinct if(condition(c2_1),c0,null)) as num_c2_1,
    ...
from t1 where xxx
group by c0

我知道计数不同很慢。但是我没有其他方法。有超过1000个不同的计算。任何身体都可以帮忙吗？

谢谢。

0 个答案:

没有答案