如何使用pyarrow流式传输镶木地板?

时间:2018-03-01 00:12:03

标签: parquet pyarrow

我试图逐个读取镶木地板文件的大型数据集,进行一些操作,然后转移到下一个,而不将它们全部保存在内存中。我需要这样做,因为整个数据集并不适合内存。以前我使用ParquetDataset并且我知道RecordBatchStreamReader,但我不确定如何将它们组合在一起。

我如何使用Pyarrow来做到这一点?

1 个答案:

答案 0 :(得分:3)

目前,Parquet API仅支持对单个文件的完整读取,因此我们只能以单个文件的粒度限制读取。我们想创建一个从Parquet文件中读取的arrow::RecordBatchReader(流数据接口)实现,请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将是受欢迎的。