pyarrow中有没有办法查询实木复合地板数据集分区的值?

时间:2018-11-28 23:02:15

标签: parquet pyarrow

例如,我的数据集如下:

dataset
    ├── a=1
    │    └── 1.parquet
    ├── a=2
    │    └── 2.parquet
    ├── a=3
         └── 3.parquet

,它以dataset = pyarrow.parquet.ParquetDataset('./dataset')的形式加载 如何在不将整个数据集读入内存的情况下查询分区“ a”的可用条目?谢谢〜

1 个答案:

答案 0 :(得分:2)

请参见pieces的{​​{1}}属性。每个ParquetDataset的{​​{1}}属性将为您提供每个分区键的值。如果您有关于简化API的想法,请在Apache Arrow中打开JIRA问题。

另请参阅https://issues.apache.org/jira/browse/ARROW-1956关于读取分区数据集的特定部分。