我正在处理RAM中的大文件(5 gb),但遇到内存不足的错误。有没有办法像pandas.read_csv
中那样处理大块地板实木复合地板文件?
import pyarrow.parquet as pq
def main():
df = pq.read_table('./data/train.parquet').to_pandas()
main()
答案 0 :(得分:1)
还没有,但是关于添加此选项还有很多问题(请参见https://issues.apache.org/jira/browse/ARROW-3771,其他)。请注意,在即将发布的0.12版本中,内存使用将得到显着改善。
同时,您可以使用pyarrow.parquet.ParquetFile
及其read_row_group
方法来一次读取一个行组。