应用错误收集

rdd.repartition（）和sc.parallelize（数据，分区）中的分区大小有什么区别

时间：2015-08-20 23:19:40

标签： python apache-spark rdd

我正在浏览spark的文档。我对rdd.repartition（）函数和sc.parallelize（）中上下文初始化期间传递的分区数感到困惑。

我的机器上有4个内核，如果我sc.parallelize（数据，4）一切正常，但当我rdd.repartition（4）并应用rdd.mappartitions（有趣）时，分区有时没有数据和我的在这种情况下，功能失败。

所以，只是想了解这两种分区方式之间的区别。

1 个答案:

答案 0 :(得分：2)

通过调用repartition(N) spark将改变分区数量（默认情况下会产生具有该分区数量的HashPartitioner）。当您使用所需数量的分区调用sc.parallelize时，它会在切片中（或类似于范围分区程序）将数据（或多或少）平均分割，您可以在ParallelCollectionRDD内部看到slice功能。

话虽如此，有可能这两个sc.parallelize(data, N)和rdd.reparitition(N)（以及几乎任何形式的数据读取）都可能导致带有空分区的RDD（它是一个非常常见的来源）使用mapPartitions代码的错误，所以我在spark-testing-base中偏向RDD生成器以创建具有空分区的RDD。对于大多数函数来说，一个非常简单的修复方法就是检查你是否已经在空迭代器中传递，并且在这种情况下只返回一个空迭代器。