我有一个1亿行表,我想知道我在CTAC列上有多少独特的值。 我试过了:
SELECT COUNT(*)
FROM ( SELECT CTAC
FROM my_table
GROUP BY CTAC
HAVING COUNT(*) > 1)
但这给了我一个错误:
sql.AnalysisException : cannot recognize input near '<EOF>' in subquery source
我们可以在spark中做一个子查询吗?如果是这样,怎么样?
我应该尝试哪个查询来解决我的问题?
答案 0 :(得分:0)
尝试不同的
println(dataFrame.select("CTAC").distinct.count)