我试图弄清楚如何编写一个拼花文件,其中每个行组的列不包含相同数量的行。例如,我的第一列可能是以10Hz采样的值,而我的第二列可能是仅以5Hz采样的值。我宁愿不要在较慢的列中重复值,因为这可能会导致计算错误。但是,我无法将两个不同大小的列写入同一行组,那么我该如何完成呢? 我正在尝试使用ParquetSharp做到这一点。
答案 0 :(得分:0)
Parquet 文件中的列不可能具有不同的行数。
文档中没有明确说明,但是如果您查看 https://parquet.apache.org/documentation/latest/#metadata,您会看到一个 RowGroup
有一个 num_rows
,而几个 ColumnChunks
本身没有单独的行号。