您可以从同一增量表中进行流式处理和批量处理吗?

时间:2019-05-02 16:05:37

标签: apache-spark spark-streaming databricks

我尝试从相同的增量表中进行流式处理和批处理,但是在批处理端遇到了小文件问题。但是,如果优化增量表,由于优化的压缩结果,流大小将失去对读取文件的跟踪。

1 个答案:

答案 0 :(得分:0)

OPTIMIZE命令删除小文件并重新添加压缩文件时,这些操作将dataChange标志设置为false进行标记。该标志告诉在事务日志之后的流,可以安全地忽略此事务以避免处理重复数据。

我还将注意到,DBR 5.3包含一个称为“自动优化”的私有预览功能,可以在小型文件甚至尚未放入表之前执行此压缩。此功能将在下一个版本的DBR中进行通用编辑。