将ORC作为自描述格式,有关列的信息存储在文件中。
创建新表并将其存储为ORC时,其元数据将添加到Hive matastore。
这些信息不是重复的吗? Hive如何处理这个问题?
答案 0 :(得分:0)
可能的解释:
列元数据(COLUMN_NAME,TYPE_NAME,COMMENT等)仅反映在hive Metastore(COLUMNS_V2)中的单个表中。
蜂巢样环区由数十个具有各种依赖性的表组成
因此,从Metastore中删除列元数据可能会节省一些小的重复性,但与整个Metastore db相比,它可以忽略不计(在我们的集群中它的比率为176KB / 530MB)。
我想节省约0.01%的冗余并不值得重新设计Metastore架构的麻烦。
ORC是一种与Hive之外的许多其他技术兼容的格式 可能是蜂巢仅使用柱状压缩,而忽略了自我描述数据格式的好处。