Apache Parquet转换的内存消耗是多少?

时间:2018-12-07 20:00:15

标签: memory parquet

我正在通过Parquet-CPP转换数据,并且看到正在创建的每个行组的内存消耗在逐渐增加。转换后的文件将约为GB,因此会有很多行组(> 10,000)正在创建一个占用大量内存的exe。另外,在编写文件元数据(页脚)时,所需的内存是行组数的函数。

Parquet是否能够在没有异常内存压力的情况下转换GB文件? 有没有办法在写入文件元数据之前释放行组,或者我必须限制要转换的数据的大小吗? 我的语言是C ++,除了关闭文件编写器外,似乎没有用于行组的释放机制。

0 个答案:

没有答案