基于这些技术尝试提高配置单元查询速度。下面的配置更改可提高速度,并希望对我执行的所有查询使用这些设置。但是我想输入一些信息,如果在所有查询中使用这些设置是否会产生相反的影响。
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;
向量化查询执行可提高扫描, 聚合,过滤和联接,方法是在 一次批处理1024行,而不是每次批处理。 在Hive 0.13中引入,此功能显着改善 查询执行时间。
set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
analyze table tweets compute statistics for columns;
启用基于成本的优化(cbo)
set hive.execution.engine=tez;
使用tez引擎