Apache orc writer清除内存

时间:2017-08-21 13:10:20

标签: java apache hadoop memory orc

我们愿意使用org.apache.orc.Writer创建orc文件。我们的测试没问题,直到从包含blob-s的更大的数据库表创建orc文件。我们尝试更改以下设置,但它们都没有用:

org.apache.orc.OrcFile.WriterOptions:
bufferSize()
stripeSize()
blockSize()
enforceBufferSize()

Orc writer正在获取所有数据集,并且只有在完成后才将它们写出来,这种行为会导致较大数据集上的内存问题。有没有办法连续填充ORC文件(从内存中连续刷新),而不是在关闭文件编写器时从内存中清除数据?从数据源创建包含blob的orc文件的最佳实践是什么,并且只能在内存中处理?

感谢任何信息!

感谢。 的Tamas

0 个答案:

没有答案