标签: apache-spark
假设我加载了一个文件,RDD被分成3个分区。并且说分区被破坏或丢失。因此,Spark将在不同节点上重建丢失的分区(按需)。
那么,是重新创建整个RDD还是只重建丢失的分区?
要求此知道如何利用内存的原因。说,如果我有3 MB的数据集,我只丢失了1 MB。那么,3 MB数据集重建或仅1MB的分区是否会重建?
如果我正在思考正确的方向或者不是Spark的情况,请指导我。
提前致谢。