Hive ORC文件格式

时间:2018-04-05 10:46:26

标签: hive

当我们在hive中创建一个ORC表时,我们可以看到数据是压缩的,而且在HDFS中不能完全读取。那么Hive如何能够将压缩数据转换为可读格式,当我们向该表触发一个简单的select *查询时,该格式会显示给我们?

感谢您的建议!!

2 个答案:

答案 0 :(得分:0)

在创建表时使用ORCserde。您必须提供Serde类的软件包名称。 行格式''。 serde所做的是将特定格式的数据序列化为hive可以处理的对象,然后反序列化以将其存储回hdfs。

答案 1 :(得分:0)

Hive使用“ Serde”(序列化反序列化)来执行此操作。创建表格时,您会提到文件格式ex:在您的情况下,它是ORC“ STORED AS ORC”(右)。 Hive在内部使用ORC库(Jar文件)转换为可读格式。要了解有关蜂巢内部的更多信息,请搜索“ Hive Serde”,您将知道如何将数据转换为对象,反之亦然。