Spark sql:如何计算double值

时间:2015-07-06 17:47:30

标签: apache-spark

我有一个1亿行表,我想知道我在CTAC列上有多少独特的值。 我试过了:

SELECT COUNT(*) 
FROM ( SELECT    CTAC 
       FROM      my_table
       GROUP BY  CTAC 
       HAVING    COUNT(*) > 1)

但这给了我一个错误:

sql.AnalysisException : cannot recognize input near '<EOF>' in subquery source

我们可以在spark中做一个子查询吗?如果是这样,怎么样?

我应该尝试哪个查询来解决我的问题?

1 个答案:

答案 0 :(得分:0)

尝试不同的

println(dataFrame.select("CTAC").distinct.count)