如何知道蜂巢中的分区位置?

时间:2013-10-24 03:04:56

标签: sql hadoop hive

如果我写一个像

这样的hive sql
ALTER TABLE tbl_name ADD PARTITION (dt=20131023) LOCATION 'hdfs://path/to/tbl_name/dt=20131023;

如何在以后查询有关分区的位置?因为我发现位置上有一些数据,但是我无法查询它们,像

这样的hive sql
SELECT data FROM tbl_name where dt=20131023;

8 个答案:

答案 0 :(得分:36)

对分区而不是完整表格进行描述 如果是外部表格,这将显示链接的位置。

describe formatted tbl_name partition (dt='20131023')

答案 1 :(得分:10)

如果您有多个嵌套分区,则语法为:

Assemblies.LoadedFiles[]

答案 2 :(得分:7)

show table extended like 'tbl_name' partition (dt='20131023');
  

Show Tables/Partitions Extended

     

SHOW TABLE EXTENDED将列出与给定正则表达式匹配的所有表的信息。如果存在分区规范,则用户不能对表名使用正则表达式。此命令的输出包括基本表信息和文件系统信息,如totalNumberFilestotalFileSizemaxFileSizeminFileSizelastAccessTimelastUpdateTime。如果存在分区,它将输出给定分区的文件系统信息,而不是表的文件​​系统信息。

答案 3 :(得分:0)

这是我用来获取特定表中特定分区的确切HDFS位置的命令格式:

create or replace trigger trigger_name
BEFORE INSERT
ON table_name
FOR EACH ROW
BEGIN
SELECT SEQUENCE_NUMBER.NEXTVAL
INTO :new.Column_1
FROM dual;
END;

在上面的命令中,分区规范包含三个单独的字段。您的示例可能有更多或更少。

请参阅下面的结果。请注意,“位置:”字段显示了HDFS文件夹的位置。

show table extended like flight_context_fused_record partition(date_key='20181013', partition_id='P-DUK2nESsv', custom_partition_1='ZMP');

命令的通用形式(取出我的特定值并放入参数说明符)如下所示:

hive (nva_test)> show table extended like flight_context_fused_record partition(date_key='20181013', partition_id='P-DUK2nESsv', custom_partition_1='ZMP');
OK
tableName:flight_context_fused_record
owner:nva-prod
location:hdfs://hdp1-ha/tmp/vfisher/cms-context-acquisition-2019-06-13/FlightContextFusedRecord/2018/10/13/ZMP/P-DUK2nESsv
inputformat:org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
outputformat:org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
columns:struct columns { string primary_key, string facility, string position, i32 dalr_channel, i64 start_time_unix_millis, i64 end_time_unix_millis, string foreign_key_to_audio_segment, struct<on_frequency_flight_list:list<struct<acid:string,ac_type:string>>,transfer_list:list<struct<primary_key:string,acid:string,data_id:string,ac_type:string,from_facility:string,from_position:string,transition_time:i64,transition_time_start:i64,transtition_time_end:i64,to_facility:string,to_position:string,source:string,source_info:string,source_time:i64,confidence:double,confidence_description:string,uuid:string>>,source_list:list<string>,domain:string,domains:list<string>> flight_context}
partitioned:true
partitionColumns:struct partition_columns { i32 date_key, string partition_id, string custom_partition_1}
totalNumberFiles:1
totalFileSize:247075687
maxFileSize:247075687
minFileSize:247075687
lastAccessTime:1561122938361
lastUpdateTime:1561071155639

答案 4 :(得分:0)

如果您想知道正在读取的文件的位置,请使用

SELECT INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE FROM <table> WHERE <part_name> = '<part_key>'

那你得到

hdfs:///user/hive/warehouse/<db>/<table>/<part_name>=<part_key>/000000_0.snappy, 0
hdfs:///user/hive/warehouse/<db>/<table>/<part_name>=<part_key>/000000_1.snappy, 0

答案 5 :(得分:0)

您可以简单地执行以下操作:

ngrok

答案 6 :(得分:0)

您可以通过运行以下任何Hive命令来获取HFS分区在HDFS上的位置。

DESCRIBE FORMATTED tbl_name  PARTITION(dt=20131023);
SHOW TABLE EXTENDED LIKE tbl_name PARTITION(dt=20131023);

或者,您也可以通过运行HDFS list命令来获取

hdfs dfs -ls <your Hive store location>/<tablename>

链接:Hive show or list all partitions

谢谢, NNK

答案 7 :(得分:0)

您可以通过 Hive Metastore Thrift 协议获取此信息,例如hmsclient library

蜂巢cli:

hive> create table test_table_with_partitions(f1 string, f2 int) partitioned by (dt string);
OK
Time taken: 0.127 seconds

hive> alter table test_table_with_partitions add partition(dt=20210504) partition(dt=20210505);
OK
Time taken: 0.152 seconds

Python 命令行:

>>> with client as c:
...     partition = c.get_partition_by_name(db_name='default', 
                                            tbl_name='test_table_with_partitions',
                                            part_name='dt=20210504')
... 
>>> partition.sd.location
'hdfs://hdfs.master.host:8020/user/hive/warehouse/test_table_with_partitions/dt=20210504'