关于hive中的analyze命令

时间:2016-03-28 08:56:15

标签: hadoop hive

我创建了表samp_emp并加载了数据,但是当我使用analyze命令时,我无法看到analyze命令的任何输出 蜂房>分析表sample_emp列的计算统计;

查询ID = cloudera_20160323042222_18ef699e-9ba1-4da9-9fff-84c9f2fa3925

总工作数= 1 从1开始工作1 编译时确定的减少任务数:1 为了更改reducer的平均负载(以字节为单位):   设置hive.exec.reducers.bytes.per.reducer = 为了限制减速器的最大数量:   设置hive.exec.reducers.max = 为了设置恒定数量的减速器:   设置mapreduce.job.reduces = 开始工作= job_1458726033020_0002,跟踪网址=

http://quickstart.cloudera:8088/proxy/application_1458726033020_0002/ 杀死命令= / usr / lib / hadoop / bin / hadoop job -kill job_1458726033020_0002 Stage-0的Hadoop作业信息:映射器数量:1;减速机数量:1 2016-03-23 04:22:35,984 Stage-0 map = 0%,reduce = 0% 2016-03-23 04:23:05,861 Stage-0 map = 100%,reduce = 0%,累计CPU 1.02秒 2016-03-23 04:23:16,705 Stage-0 map = 100%,reduce = 100%,累计CPU 2.3秒 MapReduce累计CPU总时间:2秒300毫秒 结束工作= job_1458726033020_0002

推出MapReduce职位: Stage-Stage-0:Map:1 Reduce:1累积CPU:2.3秒

HDFS阅读:13245 HDFS写:72成功 总MapReduce CPU耗时:2秒300毫秒

行 所用时间:63.787秒

2 个答案:

答案 0 :(得分:0)

analyze 命令主要用于收集表,列和分区的统计信息。

对于现有的表和/或分区,用户可以发出ANALYZE命令来收集统计信息并将其写入Hive MetaStore,而不仅仅是显示表的数据。

来源: - https://cwiki.apache.org/confluence/display/Hive/StatsDev

答案 1 :(得分:0)

当您在Hive中计算统计信息时,您并没有真正获得任何输出,让您知道它已成功完成,因此您可以关闭日志以及您的工作没有任何失败的事实。验证统计信息是最新的一种方法是显示表属性,如果列统计信息准确,则会给出值true。

show tblproperties yourTableName;