apache-spark - Spark Streaming中的RDD分发 - Thinbug

Spark Streaming中的RDD分发

时间：2015-06-17 14:18:43

标签： apache-spark spark-streaming rdd

在spark流中，接收的数据在群集中的工作节点中的多个Spark执行程序之间复制（默认复制因子为2）（http://spark.apache.org/docs/1.3.0/streaming-programming-guide.html）。但是，如何获取特定RDD复制的位置？

1 个答案:

答案 0 :(得分：0)

在Spark UI中有一个名为“Storage”的选项卡，可以告诉您缓存了哪些RDD以及哪些（内存，磁盘，序列化等）。

默认情况下，对于Spark Streaming，它会在内存中序列化RDD并根据需要删除旧的RDD。如果您没有依赖于先前结果的计算，那么将spark.streaming.unpersist设置为True会更好，因此一旦处理完，就会删除它以避免对垃圾收集器施加压力。