rdd.repartition()和sc.parallelize(数据,分区)中的分区大小有什么区别

时间:2015-08-20 23:19:40

标签: python apache-spark rdd

我正在浏览spark的文档。我对rdd.repartition()函数和sc.parallelize()中上下文初始化期间传递的分区数感到困惑。

我的机器上有4个内核,如果我sc.parallelize(数据,4)一切正常,但当我rdd.repartition(4)并应用rdd.mappartitions(有趣)时,分区有时没有数据和我的在这种情况下,功能失败。

所以,只是想了解这两种分区方式之间的区别。

1 个答案:

答案 0 :(得分:2)

通过调用repartition(N) spark将改变分区数量(默认情况下会产生具有该分区数量的HashPartitioner)。当您使用所需数量的分区调用sc.parallelize时,它会在切片中(或类似于范围分区程序)将数据(或多或少)平均分割,您可以在ParallelCollectionRDD内部看到slice功能。

话虽如此,有可能这两个sc.parallelize(data, N)rdd.reparitition(N)(以及几乎任何形式的数据读取)都可能导致带有空分区的RDD(它是一个非常常见的来源)使用mapPartitions代码的错误,所以我在spark-testing-base中偏向RDD生成器以创建具有空分区的RDD。对于大多数函数来说,一个非常简单的修复方法就是检查你是否已经在空迭代器中传递,并且在这种情况下只返回一个空迭代器。