用于平面数据结构的Apache Parquet

时间:2018-10-20 20:17:39

标签: hadoop parquet

  

Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构,并使用了Dremel论文中描述的记录粉碎和组装算法。

我知道对于通用存储格式,必须支持嵌套结构。但是,在平面数据的情况下,似乎记录的粉碎和组装(可能还有用于定义和重复级别的额外存储)的开销是多余的。

开销可以忽略不计吗?有其他可用的列式存储格式吗?

1 个答案:

答案 0 :(得分:0)

无论是否使用这种格式的文件都支持算法,我都认为仅具有结构化文件类型的好处要优于纯文本。

XML文件可以有一个架构,但是太冗长,并且不包含像Parquet这样的列统计信息。

ORC,RCFile和RecordIO是用于存储的替代列式格式。

Apache Arrow是内存中的列式格式