限制火花中的检查点大小

时间:2018-01-22 20:09:16

标签: apache-spark spark-structured-streaming

我在spark中使用结构化流式传输框架来读取Kafka主题并对其进行一些聚合。通过文档,我将我的最终查询定义为这样的 -

val query = aggResultsFromStream
  .writeStream
  .foreach(myFancyForeachWriter)
  .outputMode("update")
  .option("truncate", "false")
  .option("checkpointLocation", s"/some/location/in/hdfs/$myapp-data")
  .trigger(Trigger.ProcessingTime(30.seconds))
  .start()

一切都很好。唯一的问题是/some/location/in/hdfs/$myapp-data的大小正在增加。我的印象是它存储了一些信息以便从故障中恢复,但我感觉它只是存储所有内容。那么,是吗

  • 清除旧检查点数据的一些设置?
  • 或者检查点不那么频繁? (不太理想)
  • 或仅检查点元数据或kafka偏移以重播和恢复丢失的数据

任何谈论上述案例或具体例子的资源或文件都非常有用。非常感谢!

0 个答案:

没有答案