尽管实际配置单元表在查询列中包含的记录不足,但我还是从Spark SQL查询中获得了输出。配置单元表由整数列 date_nbr 分区,该列包含诸如 20181125 , 20181005 之类的值,由于某些原因,我不得不截断该表(注意:我没有删除HDFS中的分区目录)并重新加载表 date_nbr = 20181202
数据加载后,我在配置单元上运行以下查询,并获得了预期的结果
SELECT DISTINCT date_nbr FROM transdb.temp
date_nbr
20181202
但是spark SQL不能提供与配置单元相同的输出
scala> spark.sql("SELECT DISTINCT date_nbr FROM transdb.temp").map(_.getAs[Int](0)).collect.toList
res9: List[Int] = List(20181125, 20181005, 20181202)
我对spark sql结果感到困惑。