我正在浏览spark的文档。我对rdd.repartition()函数和sc.parallelize()中上下文初始化期间传递的分区数感到困惑。
我的机器上有4个内核,如果我sc.parallelize(数据,4)一切正常,但当我rdd.repartition(4)并应用rdd.mappartitions(有趣)时,分区有时没有数据和我的在这种情况下,功能失败。
所以,只是想了解这两种分区方式之间的区别。
答案 0 :(得分:2)
通过调用repartition(N)
spark将改变分区数量(默认情况下会产生具有该分区数量的HashPartitioner)。当您使用所需数量的分区调用sc.parallelize
时,它会在切片中(或类似于范围分区程序)将数据(或多或少)平均分割,您可以在ParallelCollectionRDD
内部看到slice
功能。
话虽如此,有可能这两个sc.parallelize(data, N)
和rdd.reparitition(N)
(以及几乎任何形式的数据读取)都可能导致带有空分区的RDD(它是一个非常常见的来源)使用mapPartitions
代码的错误,所以我在spark-testing-base中偏向RDD生成器以创建具有空分区的RDD。对于大多数函数来说,一个非常简单的修复方法就是检查你是否已经在空迭代器中传递,并且在这种情况下只返回一个空迭代器。