优化镶木地板架构结构的最佳实践

时间:2018-03-29 13:07:19

标签: apache-spark pyspark parquet

为了真正受益于对镶木地板和hdfs的快速查询,我们需要确保数据以对压缩友好的方式存储。

不幸的是,我没有在网上找到任何描述do-s和dont-s的具体指南或技巧来设计镶木地板架构。

我确实观看了描述词典编码,RLE,下推过滤,分区等的YouTube视频。

我想知道也许这里有人可以分享sych材料或他或她自己的经验。

例如:

我想要存储以下逻辑结构:

{
     root: [
         [int, int float, float],
         [int, int float, float],
         [int, int float, float],
         ....,
         .....
     ]          
}

这当然是列表清单。所有子列表实际上都是相同长度的向量,其中坐标在含义和类型上匹配。

如果我理解正确,存储这种结构的最佳方法是使用柱状范例,其中我将有4个非常长的向量,每个坐标一个。而不是许多短暂的载体。

我可以申请哪些其他考虑因素?

0 个答案:

没有答案