是否有pandas.read_csv中的chunksize参数的pyarrow?

时间:2018-12-25 11:30:06

标签: pandas parquet pyarrow

我正在处理RAM中的大文件(5 gb),但遇到内存不足的错误。有没有办法像pandas.read_csv中那样处理大块地板实木复合地板文件?

import pyarrow.parquet as pq

    def main():
        df = pq.read_table('./data/train.parquet').to_pandas()            

    main()   

1 个答案:

答案 0 :(得分:1)

还没有,但是关于添加此选项还有很多问题(请参见https://issues.apache.org/jira/browse/ARROW-3771,其他)。请注意,在即将发布的0.12版本中,内存使用将得到显着改善。

同时,您可以使用pyarrow.parquet.ParquetFile及其read_row_group方法来一次读取一个行组。