我已经通过pyspark以ORC格式创建了一个HIVE表,一切都按照要求运行。 但是,当我观察HIVE表的详细信息时,我会在下面看到
describe formatted <tbl_name>;
我得到以下输出
Table Parameters:
COLUMN_STATS_ACCURATE false
EXTERNAL FALSE
numFiles 99
numRows -1
rawDataSize -1
如何在pyspark中编写代码时更改“COLUMN_STATS_ACCURATE”的值?有没有办法做到这一点?如果不是,那么有没有办法在创建表后更改它?
答案 0 :(得分:0)
您可以致电ANALYZE TABLE
:
spark.sql("ANALYZE TABLE foo COMPUTE STATISTICS")
但请记住,Spark输出一般只提供部分Hive兼容性。