Question

我正在pyspark中使用hive llap（https://github.com/hortonworks-spark/spark-llap）来读取hive内部表，如下所示：

df = hive.table(<tableName>)

但是问题是我的表有1800万条记录，但是当我这样做的时候

df.count()

我只得到750万，这是错误的

Answer 1

您可能需要刷新未使用配置单元metastore的spark metastore，并且统计信息可能只是过时的

您可以像这样刷新pyspark元存储：

spark.sql("REFRESH TABLE <TABLE_NAME>")