使用Impala进行ORC文件格式化

时间:2016-05-11 10:47:27

标签: hadoop hive cloudera impala orc

可以在Impala中使用ORC文件格式吗?另外,如何访问存储在Impala中的hive Metastore中的ORC表。 在文档链接下面找到,但它不包含任何受限制的文件格式列表或提及不支持impala的ORC: http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html

4 个答案:

答案 0 :(得分:3)

Impala不支持ORC。相反,Apache Parquet是推荐的最佳性能格式。

答案 1 :(得分:0)

Impala无法读取ORC文件格式。如果您有可能,我建议您使用Hive将ORC文件迁移到PARQUET。优点是您只需支付一次设置map-reduce任务的时间。

如果你的ORC表是nameoforctable,那么一个非常基本的查询如下:

CREATE TABLE nameoforctable_parquet
LIKE nameoforctable
STORED AS PARQUET
LOCATION '/your/hdfs/location';

INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable

答案 2 :(得分:0)

尽管ORC是唯一支持Hive中ACID功能的格式,并且在一些基准研究中表现出更好的查询性能和压缩率,但Impala并不支持ORC文件格式,因为它是由Hortonworks创建的,Hortonworks是一个他们的主要竞争对手。反之亦然,Hortonworks数据平台(HDP)上的Hive版本出于同样的原因不支持Parquet。

答案 3 :(得分:0)

使用follow命令在impala中创建orc格式表:

create table orc_table_name_1 (x INT, y STRING) STORED AS orc;