尽管有相同的数据输入数据,但Spark SQL区别和Scala区别给出了不同的计数

时间:2018-12-19 16:11:12

标签: scala apache-spark apache-spark-sql

  

val apple1 = spark.sql(“从apple1选择count(distinct *),其中data1_ts = 201804”)。显示

10871344

  

apple1.filter(col(“ data1_ts”)===“ 201804”)。distinct.count

20573671

有什么想法都在s3中的表上使用distinct,并选择特定目录,但是给出不同的值吗?

0 个答案:

没有答案