如何从pyarrow.BufferOutputStream读取下一个数据块?

时间:2019-10-17 17:42:04

标签: python parquet pyarrow

正在阅读文档"Writing and Reading Streams"。那里使用下面的代码来读取整个缓冲区的末尾

import pyarrow as pa

sink = pa.BufferOutputStream()

## here loop for reading data to sink

buf = sink.getvalue() # this close sink as well 
reader = pa.ipc.open_stream(buf)

问题是sink.getvalue()关闭流。

从doc完全不清楚如何在将数据写入sink的同一循环中逐块读取数据 当我尝试sink.readall()sink.read()时,出现错误“ OSError:仅对只读文件有效”:(

如果最终可以读取一次,那么这些流的原因是什么?读取十亿条记录表

并不能从Out of memory中拯救我

0 个答案:

没有答案