元数据是否在存储为ORC的Hive表中重复?

时间:2017-02-24 15:33:53

标签: hive orc

将ORC作为自描述格式,有关列的信息存储在文件中。

创建新表并将其存储为ORC时,其元数据将添加到Hive matastore。

这些信息不是重复的吗? Hive如何处理这个问题?

1 个答案:

答案 0 :(得分:0)

可能的解释:
列元数据(COLUMN_NAME,TYPE_NAME,COMMENT等)仅反映在hive Metastore(COLUMNS_V2)中的单个表中。
蜂巢样环区由数十个具有各种依赖性的表组成 因此,从Metastore中删除列元数据可能会节省一些小的重复性,但与整个Metastore db相比,它可以忽略不计(在我们的集群中它的比率为176KB / 530MB)。 我想节省约0.01%的冗余并不值得重新设计Metastore架构的麻烦。

ORC是一种与Hive之外的许多其他技术兼容的格式 可能是蜂巢仅使用柱状压缩,而忽略了自我描述数据格式的好处。