例如,我的数据集如下:
dataset
├── a=1
│ └── 1.parquet
├── a=2
│ └── 2.parquet
├── a=3
└── 3.parquet
,它以dataset = pyarrow.parquet.ParquetDataset('./dataset')
的形式加载
如何在不将整个数据集读入内存的情况下查询分区“ a
”的可用条目?谢谢〜
答案 0 :(得分:2)
请参见pieces
的{{1}}属性。每个ParquetDataset
的{{1}}属性将为您提供每个分区键的值。如果您有关于简化API的想法,请在Apache Arrow中打开JIRA问题。
另请参阅https://issues.apache.org/jira/browse/ARROW-1956关于读取分区数据集的特定部分。