Impala查询在Pyspark中返回不正确的结果

时间:2019-07-08 09:41:26

标签: python apache-spark hive pyspark pyspark-sql

我正在尝试从pyspark获取一个Impala表的计数。但是我得到的结果不合适。

黑斑羚表是一个分区表。它按年和月进行分区( EX:201906 )。我什至在做无效的元数据,更新表后更改表恢复分区并刷新表。但是我仍然没有得到应有的结果。

执行

select count(*) dbname.tablename where timestamp>='2019-06-01' and timestamp<='2019-06-15' 

返回

10931

spark.sql("select count(*) dbname.tablename") where timestamp>='2019-06-01' and timestamp<='2019-06-15'

返回

0

1 个答案:

答案 0 :(得分:1)

将表拼凑成一个表并从Impala中写入行? 如果是,答案为here

  

在过滤由Impala编写的Parquet数据时,缺少Hive,Spark,Pig,Custom MapReduce作业和其他Java应用程序中的结果