什么时候创建和销毁/删除Spark RDD块?

时间:2018-04-12 11:32:40

标签: apache-spark spark-streaming rdd

在执行者选项卡的Spark UI中有一个名为RDD的列。一个观察结果是,对于从Kafka流式传输消息的特定流式传输作业,RDD块的数量不断增加。

某些执行程序被自动删除,并且在长时间运行后,应用程序会因大量RDD块而减慢速度。 <{1}}和DStreams不会在任何地方手动保留。

如果有人解释创建这些块的时间以及删除块的基础(是否有任何需要修改的参数?),那将是一个很大的帮助。

1 个答案:

答案 0 :(得分:3)

Spark UI的正确解释是this。 RDD块可以表示缓存的RDD分区,中间混洗输出,广播等。查看此book的BlockManager部分。