可以在Impala中使用ORC文件格式吗?另外,如何访问存储在Impala中的hive Metastore中的ORC表。 在文档链接下面找到,但它不包含任何受限制的文件格式列表或提及不支持impala的ORC: http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html
答案 0 :(得分:3)
Impala不支持ORC。相反,Apache Parquet是推荐的最佳性能格式。
答案 1 :(得分:0)
Impala无法读取ORC文件格式。如果您有可能,我建议您使用Hive将ORC文件迁移到PARQUET。优点是您只需支付一次设置map-reduce任务的时间。
如果你的ORC表是nameoforctable,那么一个非常基本的查询如下:
CREATE TABLE nameoforctable_parquet
LIKE nameoforctable
STORED AS PARQUET
LOCATION '/your/hdfs/location';
INSERT INTO nameoforctable_parquet
SELECT * FROM nameoforctable
答案 2 :(得分:0)
尽管ORC是唯一支持Hive中ACID功能的格式,并且在一些基准研究中表现出更好的查询性能和压缩率,但Impala并不支持ORC文件格式,因为它是由Hortonworks创建的,Hortonworks是一个他们的主要竞争对手。反之亦然,Hortonworks数据平台(HDP)上的Hive版本出于同样的原因不支持Parquet。
答案 3 :(得分:0)
使用follow命令在impala中创建orc格式表:
create table orc_table_name_1 (x INT, y STRING) STORED AS orc;