我正在pyspark中使用hive llap(https://github.com/hortonworks-spark/spark-llap)来读取hive内部表,如下所示:
df = hive.table(<tableName>)
但是问题是我的表有1800万条记录,但是当我这样做的时候
df.count()
我只得到750万,这是错误的
答案 0 :(得分:0)
您可能需要刷新未使用配置单元metastore的spark metastore,并且统计信息可能只是过时的
您可以像这样刷新pyspark元存储:
spark.sql("REFRESH TABLE <TABLE_NAME>")