我尝试从相同的增量表中进行流式处理和批处理,但是在批处理端遇到了小文件问题。但是,如果优化增量表,由于优化的压缩结果,流大小将失去对读取文件的跟踪。
答案 0 :(得分:0)
当OPTIMIZE
命令删除小文件并重新添加压缩文件时,这些操作将dataChange
标志设置为false进行标记。该标志告诉在事务日志之后的流,可以安全地忽略此事务以避免处理重复数据。
我还将注意到,DBR 5.3包含一个称为“自动优化”的私有预览功能,可以在小型文件甚至尚未放入表之前执行此压缩。此功能将在下一个版本的DBR中进行通用编辑。