Parquet支持的Hive表:在Impala中无法查询的数组列

时间:2016-05-15 21:10:35

标签: hive impala parquet

虽然Impala比Hive快得多,但我们使用了Hive,因为它支持复杂(嵌套)数据类型,如数组和映射。

我注意到Impala,从CDH5.5开始,现在支持复杂的数据类型。既然也可以在Impala中运行Hive UDF,我们可以在Impala中完成我们想要的一切,但速度要快得多。那是个好消息!

在浏览文档时,我发现Impala希望数据以Parquet格式存储。我的数据原始形式恰好是一个双列CSV,其中第一列是ID,第二列是以管道分隔的字符串数组,例如:

123,ASDFG|SDFGH|DFGHJ|FGHJK
234,QWERT|WERTY|ERTYU

创建了一个Hive表:

CREATE TABLE `id_member_of`(
  `id` INT, 
  `member_of` ARRAY<STRING>)
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY ',' 
  COLLECTION ITEMS TERMINATED BY '|' 
  LINES TERMINATED BY '\n' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

原始数据已加载到Hive表中:

LOAD DATA LOCAL INPATH 'raw_data.csv' INTO TABLE id_member_of;

创建了桌子的Parquet版本:

CREATE TABLE `id_member_of_parquet` (
 `id` STRING, 
 `member_of` ARRAY<STRING>) 
STORED AS PARQUET;

CSV支持的表中的数据已插入Parquet表中:

INSERT INTO id_member_of_parquet SELECT id, member_of FROM id_member_of;

现在可以在Hive中查询Parquet表:

hive> select * from id_member_of_parquet;
123 ["ASDFG","SDFGH","DFGHJ","FGHJK"]
234 ["QWERT","WERTY","ERTYU"]

奇怪的是,当我在Impala中查询同一个Parquet支持的表时,它不会返回数组列:

[hadoop01:21000] > invalidate metadata;
[hadoop01:21000] > select * from id_member_of_parquet;
+-----+
| id  |
+-----+
| 123 |
| 234 |
+-----+

问题:数组列发生了什么变化?你能看出我做错了什么吗?

1 个答案:

答案 0 :(得分:4)

事实证明这很简单:我们可以通过将数据添加到带有点的FROM来访问数组,例如

Query: select * from id_member_of_parquet, id_member_of_parquet.member_of
+-----+-------+
| id  | item  |
+-----+-------+
| 123 | ASDFG |
| 123 | SDFGH |
| 123 | DFGHJ |
| 123 | FGHJK |
| 234 | QWERT |
| 234 | WERTY |
| 234 | ERTYU |
+-----+-------+