Question

可以在Impala中使用ORC文件格式吗？另外，如何访问存储在Impala中的hive Metastore中的ORC表。在文档链接下面找到，但它不包含任何受限制的文件格式列表或提及不支持impala的ORC： http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html

Answer 1

Impala不支持ORC。相反，Apache Parquet是推荐的最佳性能格式。

Answer 2

Impala无法读取ORC文件格式。如果您有可能，我建议您使用Hive将ORC文件迁移到PARQUET。优点是您只需支付一次设置map-reduce任务的时间。

如果你的ORC表是nameoforctable，那么一个非常基本的查询如下：

CREATE TABLE nameoforctable_parquet
LIKE nameoforctable
STORED AS PARQUET
LOCATION '/your/hdfs/location';

INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable

Answer 3

尽管ORC是唯一支持Hive中ACID功能的格式，并且在一些基准研究中表现出更好的查询性能和压缩率，但Impala并不支持ORC文件格式，因为它是由Hortonworks创建的，Hortonworks是一个他们的主要竞争对手。反之亦然，Hortonworks数据平台（HDP）上的Hive版本出于同样的原因不支持Parquet。

Answer 4

使用follow命令在impala中创建orc格式表：

create table orc_table_name_1 (x INT, y STRING) STORED AS orc;

使用Impala进行ORC文件格式化

4 个答案: