Question

我有一个1亿行表，我想知道我在CTAC列上有多少独特的值。我试过了：

SELECT COUNT(*) 
FROM ( SELECT    CTAC 
       FROM      my_table
       GROUP BY  CTAC 
       HAVING    COUNT(*) > 1)

但这给了我一个错误：

sql.AnalysisException : cannot recognize input near '<EOF>' in subquery source

我们可以在spark中做一个子查询吗？如果是这样，怎么样？

我应该尝试哪个查询来解决我的问题？

Answer 1

尝试不同的

println(dataFrame.select("CTAC").distinct.count)