为了真正受益于对镶木地板和hdfs的快速查询,我们需要确保数据以对压缩友好的方式存储。
不幸的是,我没有在网上找到任何描述do-s和dont-s的具体指南或技巧来设计镶木地板架构。
我确实观看了描述词典编码,RLE,下推过滤,分区等的YouTube视频。
我想知道也许这里有人可以分享sych材料或他或她自己的经验。
例如:
我想要存储以下逻辑结构:
{
root: [
[int, int float, float],
[int, int float, float],
[int, int float, float],
....,
.....
]
}
这当然是列表清单。所有子列表实际上都是相同长度的向量,其中坐标在含义和类型上匹配。
如果我理解正确,存储这种结构的最佳方法是使用柱状范例,其中我将有4个非常长的向量,每个坐标一个。而不是许多短暂的载体。
我可以申请哪些其他考虑因素?