尽管hive表在查询列中包含的记录不足,但Spark SQL查询返回输出

时间:2019-02-17 20:04:12

标签: apache-spark hive apache-spark-sql

尽管实际配置单元表在查询列中包含的记录不足,但我还是从Spark SQL查询中获得了输出。配置单元表由整数列 date_nbr 分区,该列包含诸如 20181125 20181005 之类的值,由于某些原因,我不得不截断该表(注意:我没有删除HDFS中的分区目录)并重新加载表 date_nbr = 20181202

数据加载后,我在配置单元上运行以下查询,并获得了预期的结果

SELECT DISTINCT date_nbr FROM transdb.temp date_nbr 20181202

但是spark SQL不能提供与配置单元相同的输出

scala> spark.sql("SELECT DISTINCT date_nbr FROM transdb.temp").map(_.getAs[Int](0)).collect.toList
res9: List[Int] = List(20181125, 20181005, 20181202)

我对spark sql结果感到困惑。

0 个答案:

没有答案