Question

我在spark中使用结构化流式传输框架来读取Kafka主题并对其进行一些聚合。通过文档，我将我的最终查询定义为这样的 -

val query = aggResultsFromStream
  .writeStream
  .foreach(myFancyForeachWriter)
  .outputMode("update")
  .option("truncate", "false")
  .option("checkpointLocation", s"/some/location/in/hdfs/$myapp-data")
  .trigger(Trigger.ProcessingTime(30.seconds))
  .start()

一切都很好。唯一的问题是/some/location/in/hdfs/$myapp-data的大小正在增加。我的印象是它存储了一些信息以便从故障中恢复，但我感觉它只是存储所有内容。那么，是吗

清除旧检查点数据的一些设置？
或者检查点不那么频繁？（不太理想）
或仅检查点元数据或kafka偏移以重播和恢复丢失的数据

任何谈论上述案例或具体例子的资源或文件都非常有用。非常感谢！

限制火花中的检查点大小

0 个答案: