我有一个包含1000多个分区的表。
" Show partitions
"命令只列出少量分区。
如何显示所有分区?
更新
我找到了" show partitions
"命令只列出了500个分区。
" select ... where ...
"只处理500个分区!
答案 0 :(得分:75)
显示输出时,CLI有一些限制。我建议将输出导出到本地文件:
$hive -e 'show partitions table;' > partitions
答案 1 :(得分:6)
hive>显示分区table_name;
答案 2 :(得分:3)
您可以在“PARTITIONS”表中看到Hive MetaStore表,分区信息。 您可以使用“TBLS”加入“Partition”来查询特殊的表分区。
答案 3 :(得分:2)
好的,我正在通过扩展上面的wmky答案来写这个答案。另外,假设您已为您的Metastore而不是derby配置了mysql。
select PART_NAME FROM PARTITIONS WHERE TBL_ID=(SELECT TBL_ID FROM TBLS WHERE TBL_NAME='<table_name>');
上面的查询为您提供了分区列的所有可能值。
<强> 实施例 强>
hive> desc clicks_fact;
OK
time timestamp
..
day date
file_date varchar(8)
# Partition Information
# col_name data_type comment
day date
file_date varchar(8)
Time taken: 1.075 seconds, Fetched: 28 row(s)
我要获取分区列的值。
mysql> select PART_NAME FROM PARTITIONS WHERE TBL_ID=(SELECT TBL_ID FROM TBLS WHERE TBL_NAME='clicks_fact');
+-----------------------------------+
| PART_NAME |
+-----------------------------------+
| day=2016-08-16/file_date=20160816 |
| day=2016-08-17/file_date=20160816 |
....
....
| day=2017-09-09/file_date=20170909 |
| day=2017-09-08/file_date=20170909 |
| day=2017-09-09/file_date=20170910 |
| day=2017-09-10/file_date=20170910 |
+-----------------------------------+
1216 rows in set (0.00 sec)
返回所有分区列。
注意:JOIN
表DBS
当涉及到数据库时({,当多个数据库具有相同的table_name时)<{1}} < /强>
答案 4 :(得分:0)
另一种选择是通过 Thrift 协议与 Hive Metastore 通信。
如果您使用 Python 编写代码,您可能会受益于 hmsclient 库:
蜂巢cli:
hive> create table test_table_with_partitions(f1 string, f2 int) partitioned by (dt string);
OK
Time taken: 0.127 seconds
hive> alter table test_table_with_partitions add partition(dt=20210504) partition(dt=20210505);
OK
Time taken: 0.152 seconds
Python 命令行:
>>> from hmsclient import hmsclient
>>> client = hmsclient.HMSClient(host='hive.metastore.location', port=9083)
>>> with client as c:
... all_partitions = c.get_partitions(db_name='default',
... tbl_name='test_table_with_partitions',
... max_parts=24 * 365 * 3)
...
>>> print([{'dt': part.values[0]} for part in all_partitions])
[{'dt': '20210504'}, {'dt': '20210505'}]
注意:max_parts
是一个不能大于 32767(java 短最大值)的参数。
如果您将 Airflow 与 apache.hive
extra 一起安装,您可以轻松创建 hmsclient
:
hive_hook = HiveMetastoreHook()
with hive_hook.metastore as hive_client:
... your code goes here ...
这似乎是一种与 Hive Metastore 通信比直接访问数据库(以及与数据库引擎无关的BTW)更有效的方式。