标签: apache-spark spark-streaming
我想知道为什么Spark Streaming会将所有已处理的批次保留在内存中?它导致执行程序内存不足,但我在处理后真的不需要它们。可以在某处配置,以便批处理后不会保留在内存中吗?
答案 0 :(得分:0)
在某种程度上,每批数据都被视为RDD,它是一个不可变的并行数据集合,它们保存在内存中并复制到多个节点以实现容错。
另一方面,只要有状态操作依赖于以前的批量数据。
实际上我并不是真的明白你的意思,但我认为火花流将在必要时消除旧的批次。