Question

为了加快大表上的ETL查询，我们晚上在这些表和日期列上运行许多analyze查询。但是这些对列的analyze查询会占用大量内存和时间。我们正在使用tez。像某些设置命令一样，有什么方法可以优化analyze查询。

Answer 1

如果要使用插入覆盖来加载表，则可以通过在插入覆盖查询期间设置hive.stats.autogather=true来自动收集统计信息。

如果表已分区并且正在逐步加载分区，则只能分析最后一个分区。

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)]

对于ORC文件，可以指定hive.stats.gather.num.threads来增强并行性。