Parquet文件格式到底如何?

时间:2019-05-06 05:07:43

标签: c++ format metadata parquet

关于apache实木复合地板文件格式,我有两个主要问题:

  1. 在apache网站中,提到“页面共享一个公共标题,读者可以跳过他们不感兴趣的页面”。在这种情况下?您如何压缩某些页面(同一行组的同一列中的页面)而没有压缩某些页面?您可能对不同的群体有不同的统计数据? 此外,在行组头文件中,每列中只有第一页的偏移量,在这种情况下,如何确定其他页面的偏移量?当您没有其他页面的其他信息时,如何跳过页面以移至下一页?

  2. 在行组元数据中,每个列都有一个元数据。以下也是apache网站中提到的文件的结构:

    4字节幻数“ PAR1”

    第1列块1 +列元数据

    第2列块1 +列元数据

    ...

    第N列1 +列元数据

    第1列块2 +列元数据

    第2列块2 +列元数据

    ...

    第N列2 +列元数据 ...

    第1列大块M +列元数据

    第2列块M +列元数据

    ...

    第N列块M +列元数据

    文件元数据

    4个字节的长度,以文件元数据为单位

    4字节幻数“ PAR1”

我想知道行组元数据中提到的列元数据和上面提到的列元数据之间有什么区别?从上面看来,似乎每列后面都有其元数据?我的理解正确吗?如果是这样,此元数据是否与行组标题中的元数据重复?还是该元数据是页面元数据的那一个?

有人可以用纯文本(不是二进制)发布具有数据和确切格式的镶木地板文件,所以我知道文件格式到底是什么?非常感谢。

0 个答案:

没有答案