在spark流中,接收的数据在群集中的工作节点中的多个Spark执行程序之间复制(默认复制因子为2)(http://spark.apache.org/docs/1.3.0/streaming-programming-guide.html)。但是,如何获取特定RDD复制的位置?
答案 0 :(得分:0)
在Spark UI中有一个名为“Storage”的选项卡,可以告诉您缓存了哪些RDD以及哪些(内存,磁盘,序列化等)。
默认情况下,对于Spark Streaming,它会在内存中序列化RDD并根据需要删除旧的RDD。如果您没有依赖于先前结果的计算,那么将spark.streaming.unpersist设置为True会更好,因此一旦处理完,就会删除它以避免对垃圾收集器施加压力。