我们愿意使用org.apache.orc.Writer创建orc文件。我们的测试没问题,直到从包含blob-s的更大的数据库表创建orc文件。我们尝试更改以下设置,但它们都没有用:
org.apache.orc.OrcFile.WriterOptions:
bufferSize()
stripeSize()
blockSize()
enforceBufferSize()
Orc writer正在获取所有数据集,并且只有在完成后才将它们写出来,这种行为会导致较大数据集上的内存问题。有没有办法连续填充ORC文件(从内存中连续刷新),而不是在关闭文件编写器时从内存中清除数据?从数据源创建包含blob的orc文件的最佳实践是什么,并且只能在内存中处理?
感谢任何信息!
感谢。 的Tamas