我目前正在阅读数据密集型书。在书中提到,面向列的存储布局依赖于包含以相同顺序排列的行的每个列文件。这是否意味着每一列都会有一个单独的文件?
现在,我已经写了一份工作以Parquet格式输出一张表,但是它只输出一个文件,因此数据是如何存储在Parquet文件中的,因为它是一种面向列的存储格式,所以我假设它会为每个表生成多个文件柱。网站上的镶木地板文件图看起来非常复杂。该图的任何简单说明。还是有什么工具可以解密文件,从而清晰地显示文件内部的存储格式?另外,在对镶木地板文件运行查询时如何读取单个列?