优化命令对结构化流作业正在写入的Delta湖表无济于事

时间:2020-02-20 13:05:34

标签: databricks azure-databricks

我有一个结构化的流作业,该作业从事件中心读取并以/ mytablepath的形式写入增量湖表,该表存储在Azure blob存储中。在Production中运行的最近两个月中,它已经创建了约1000个小文件,每个文件只有2-3行。

我尝试在delta湖表(路径)上运行优化命令,但是即使在blob存储上的文件数量没有减少并且在笔记本中的表上运行任何查询后,它仍然显示警告“ query is在包含许多小文件的增量表上,运行优化以提高性能”。

谢谢

1 个答案:

答案 0 :(得分:0)

运行优化后,需要清理真空。