标签: scala apache-spark apache-spark-sql
val apple1 = spark.sql(“从apple1选择count(distinct *),其中data1_ts = 201804”)。显示
10871344
apple1.filter(col(“ data1_ts”)===“ 201804”)。distinct.count
20573671
有什么想法都在s3中的表上使用distinct,并选择特定目录,但是给出不同的值吗?