Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构,并使用了Dremel论文中描述的记录粉碎和组装算法。
我知道对于通用存储格式,必须支持嵌套结构。但是,在平面数据的情况下,似乎记录的粉碎和组装(可能还有用于定义和重复级别的额外存储)的开销是多余的。
开销可以忽略不计吗?有其他可用的列式存储格式吗?
答案 0 :(得分:0)
无论是否使用这种格式的文件都支持算法,我都认为仅具有结构化文件类型的好处要优于纯文本。
XML文件可以有一个架构,但是太冗长,并且不包含像Parquet这样的列统计信息。
ORC,RCFile和RecordIO是用于存储的替代列式格式。
Apache Arrow是内存中的列式格式