应用错误收集

您可以从同一增量表中进行流式处理和批量处理吗？

时间：2019-05-02 16:05:37

标签： apache-spark spark-streaming databricks

我尝试从相同的增量表中进行流式处理和批处理，但是在批处理端遇到了小文件问题。但是，如果优化增量表，由于优化的压缩结果，流大小将失去对读取文件的跟踪。

1 个答案:

答案 0 :(得分：0)

当OPTIMIZE命令删除小文件并重新添加压缩文件时，这些操作将dataChange标志设置为false进行标记。该标志告诉在事务日志之后的流，可以安全地忽略此事务以避免处理重复数据。

我还将注意到，DBR 5.3包含一个称为“自动优化”的私有预览功能，可以在小型文件甚至尚未放入表之前执行此压缩。此功能将在下一个版本的DBR中进行通用编辑。