自动生成有关数据库结构的文档

时间:2016-12-17 06:45:21

标签: hadoop hive

有一个包含多个视图和表的数据库。 我需要创建一个报告(数据库文档),其中包含这些表中所有字段的列表,指示类型,如果可能,还指示第一行的最小/最大值和值。例如:

.------------.--------.--------.--------------.--------------.--------------.
| Table name | Column |  Type  |   MinValue   |   MaxValue   |   FirstRow   |
:------------+--------+--------+--------------+--------------+--------------:
| Table1     | day    | date   | ‘2010-09-17’ | ‘2016-12-10’ | ‘2016-12-10’ |
:------------+--------+--------+--------------+--------------+--------------:
| Table1     | price  | double | 1030.8       | 29485.7      | 6023.8       |
:------------+--------+--------+--------------+--------------+--------------:
| …          |        |        |              |              |              |
:------------+--------+--------+--------------+--------------+--------------:
| TableN     | day    | date   | ‘2014-06-20’ | ‘2016-11-28’ | ‘2016-11-16’ |
:------------+--------+--------+--------------+--------------+--------------:
| TableN     | owner  | string | NULL         | NULL         | ‘Joe’        |
'------------'--------'--------'--------------'--------------'--------------'

我认为执行了很多查询

SELECT MAX(column_name) as max_value, MIN(column_name) as min_value
FROM table_name

对存储在Hadoop中的巨大表格无效。

阅读文档后发现了一篇关于" Statistics in Hive"的文章。 看来我必须使用这样的请求:

ANALYZE TABLE tablename COMPUTE STATISTICS FOR COLUMNS;

但是这个命令以错误结束:

处理语句时出错:FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.ColumnStatsTask返回代码1

我是否正确理解此请求是否将信息添加到表的描述中而不显示结果?此请求是否适用于视图?

请建议如何在HIVE中有效自动创建数据库文档?

0 个答案:

没有答案