有一个包含多个视图和表的数据库。 我需要创建一个报告(数据库文档),其中包含这些表中所有字段的列表,指示类型,如果可能,还指示第一行的最小/最大值和值。例如:
.------------.--------.--------.--------------.--------------.--------------.
| Table name | Column | Type | MinValue | MaxValue | FirstRow |
:------------+--------+--------+--------------+--------------+--------------:
| Table1 | day | date | ‘2010-09-17’ | ‘2016-12-10’ | ‘2016-12-10’ |
:------------+--------+--------+--------------+--------------+--------------:
| Table1 | price | double | 1030.8 | 29485.7 | 6023.8 |
:------------+--------+--------+--------------+--------------+--------------:
| … | | | | | |
:------------+--------+--------+--------------+--------------+--------------:
| TableN | day | date | ‘2014-06-20’ | ‘2016-11-28’ | ‘2016-11-16’ |
:------------+--------+--------+--------------+--------------+--------------:
| TableN | owner | string | NULL | NULL | ‘Joe’ |
'------------'--------'--------'--------------'--------------'--------------'
我认为执行了很多查询
SELECT MAX(column_name) as max_value, MIN(column_name) as min_value
FROM table_name
对存储在Hadoop中的巨大表格无效。
阅读文档后发现了一篇关于" Statistics in Hive"的文章。 看来我必须使用这样的请求:
ANALYZE TABLE tablename COMPUTE STATISTICS FOR COLUMNS;
但是这个命令以错误结束:
处理语句时出错:FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.ColumnStatsTask返回代码1
我是否正确理解此请求是否将信息添加到表的描述中而不显示结果?此请求是否适用于视图?
请建议如何在HIVE中有效自动创建数据库文档?