Question

我正在尝试从pyspark获取一个Impala表的计数。但是我得到的结果不合适。

黑斑羚表是一个分区表。它按年和月进行分区（ EX：201906 ）。我什至在做无效的元数据，更新表后更改表恢复分区并刷新表。但是我仍然没有得到应有的结果。

执行

select count(*) dbname.tablename where timestamp>='2019-06-01' and timestamp<='2019-06-15'

返回

和

spark.sql("select count(*) dbname.tablename") where timestamp>='2019-06-01' and timestamp<='2019-06-15'

返回

Answer 1

将表拼凑成一个表并从Impala中写入行？如果是，答案为here。

在过滤由Impala编写的Parquet数据时，缺少Hive，Spark，Pig，Custom MapReduce作业和其他Java应用程序中的结果