pyspark hive.table不读取蜂巢表的所有行

时间:2020-10-22 13:36:40

标签: apache-spark pyspark hive apache-spark-sql

我正在pyspark中使用hive llap(https://github.com/hortonworks-spark/spark-llap)来读取hive内部表,如下所示:

df = hive.table(<tableName>)

但是问题是我的表有1800万条记录,但是当我这样做的时候

df.count()

我只得到750万,这是错误的

1 个答案:

答案 0 :(得分:0)

您可能需要刷新未使用配置单元metastore的spark metastore,并且统计信息可能只是过时的

您可以像这样刷新pyspark元存储:

spark.sql("REFRESH TABLE <TABLE_NAME>")