应用错误收集

尽管实际配置单元表在查询列中包含的记录不足，但我还是从Spark SQL查询中获得了输出。配置单元表由整数列 date_nbr 分区，该列包含诸如 20181125 ， 20181005 之类的值，由于某些原因，我不得不截断该表（注意：我没有删除HDFS中的分区目录）并重新加载表 date_nbr = 20181202

数据加载后，我在配置单元上运行以下查询，并获得了预期的结果

SELECT DISTINCT date_nbr FROM transdb.temp date_nbr 20181202

但是spark SQL不能提供与配置单元相同的输出

scala> spark.sql("SELECT DISTINCT date_nbr FROM transdb.temp").map(_.getAs[Int](0)).collect.toList
res9: List[Int] = List(20181125, 20181005, 20181202)

我对spark sql结果感到困惑。

尽管hive表在查询列中包含的记录不足，但Spark SQL查询返回输出

0 个答案: