应用错误收集

如何使用pyarrow流式传输镶木地板？

时间：2018-03-01 00:12:03

标签： parquet pyarrow

我试图逐个读取镶木地板文件的大型数据集，进行一些操作，然后转移到下一个，而不将它们全部保存在内存中。我需要这样做，因为整个数据集并不适合内存。以前我使用ParquetDataset并且我知道RecordBatchStreamReader，但我不确定如何将它们组合在一起。

我如何使用Pyarrow来做到这一点？

1 个答案:

答案 0 :(得分：3)

目前，Parquet API仅支持对单个文件的完整读取，因此我们只能以单个文件的粒度限制读取。我们想创建一个从Parquet文件中读取的arrow::RecordBatchReader（流数据接口）实现，请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将是受欢迎的。

使用pyarrow你如何附加到镶木地板文件？
使用PyArrow
如何使用pyarrow流式传输镶木地板？
如何用pyarrow编写Parquet元数据？
如何使用熊猫编写分区的Parquet文件
镶木地板中的嵌入式类型
熊猫使用struct读取实木复合地板（不是数组）
使用Python将大数据流写入Parquet
如何使用pyarrow.RecordBatchStreamWriter编写压缩的实木复合地板文件？
如何使用pyarrow从s3中读取分区的实木复合地板文件？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？