我想知道删除作业可用于Databricks。是否在终止作业群集时立即终止代码执行?如果我使用微批处理,是否确保最后一批处理完毕然后终止,或者只是突然终止而可能导致数据丢失/数据损坏?我该如何避免呢?
当我删除正在运行的群集上的作业时,还会发生什么?
答案 0 :(得分:1)
它将立即终止-不能正常终止。
您使用的是结构化流式处理还是真正的微批处理?如果是前者,则检查点文件将足以从正确的位置开始。 (https://docs.databricks.com/spark/latest/structured-streaming/production.html)
如果您有自己的批处理过程,则需要手动编写一个检查点文件来跟踪您的工作地点。鉴于缺乏事务,我将确保您的管道是幂等的,这样,如果您确实重新启动并重复批次,则不会产生影响。