Question

我创建了表samp_emp并加载了数据，但是当我使用analyze命令时，我无法看到analyze命令的任何输出蜂房＆GT;分析表sample_emp列的计算统计;

查询ID = cloudera_20160323042222_18ef699e-9ba1-4da9-9fff-84c9f2fa3925

总工作数= 1 从1开始工作1 编译时确定的减少任务数：1 为了更改reducer的平均负载（以字节为单位）：设置hive.exec.reducers.bytes.per.reducer = 为了限制减速器的最大数量：设置hive.exec.reducers.max = 为了设置恒定数量的减速器：设置mapreduce.job.reduces = 开始工作= job_1458726033020_0002，跟踪网址=

http://quickstart.cloudera:8088/proxy/application_1458726033020_0002/ 杀死命令= / usr / lib / hadoop / bin / hadoop job -kill job_1458726033020_0002 Stage-0的Hadoop作业信息：映射器数量：1;减速机数量：1 2016-03-23 04：22：35,984 Stage-0 map = 0％，reduce = 0％ 2016-03-23 04：23：05,861 Stage-0 map = 100％，reduce = 0％，累计CPU 1.02秒 2016-03-23 04：23：16,705 Stage-0 map = 100％，reduce = 100％，累计CPU 2.3秒 MapReduce累计CPU总时间：2秒300毫秒结束工作= job_1458726033020_0002

推出MapReduce职位： Stage-Stage-0：Map：1 Reduce：1累积CPU：2.3秒

HDFS阅读：13245 HDFS写：72成功总MapReduce CPU耗时：2秒300毫秒

行所用时间：63.787秒

Answer 1

analyze 命令主要用于收集表，列和分区的统计信息。

对于现有的表和/或分区，用户可以发出ANALYZE命令来收集统计信息并将其写入Hive MetaStore，而不仅仅是显示表的数据。

来源： - https://cwiki.apache.org/confluence/display/Hive/StatsDev

Answer 2

当您在Hive中计算统计信息时，您并没有真正获得任何输出，让您知道它已成功完成，因此您可以关闭日志以及您的工作没有任何失败的事实。验证统计信息是最新的一种方法是显示表属性，如果列统计信息准确，则会给出值true。

show tblproperties yourTableName;

关于hive中的analyze命令

2 个答案: