我在spark中使用结构化流式传输框架来读取Kafka主题并对其进行一些聚合。通过文档,我将我的最终查询定义为这样的 -
val query = aggResultsFromStream
.writeStream
.foreach(myFancyForeachWriter)
.outputMode("update")
.option("truncate", "false")
.option("checkpointLocation", s"/some/location/in/hdfs/$myapp-data")
.trigger(Trigger.ProcessingTime(30.seconds))
.start()
一切都很好。唯一的问题是/some/location/in/hdfs/$myapp-data
的大小正在增加。我的印象是它存储了一些信息以便从故障中恢复,但我感觉它只是存储所有内容。那么,是吗
任何谈论上述案例或具体例子的资源或文件都非常有用。非常感谢!