Spark如何重建丢失的分区

时间:2015-12-24 13:18:46

标签: apache-spark

假设我加载了一个文件,RDD被分成3个分区。并且说分区被破坏或丢失。因此,Spark将在不同节点上重建丢失的分区(按需)。

那么,是重新创建整个RDD还是只重建丢失的分区?

要求此知道如何利用内存的原因。说,如果我有3 MB的数据集,我只丢失了1 MB。那么,3 MB数据集重建或仅1MB的分区是否会重建?

如果我正在思考正确的方向或者不是Spark的情况,请指导我。

提前致谢。

0 个答案:

没有答案