Question

所以我在spark中使用了groupByKey函数，但它没有被并行化，因为我可以看到它在执行期间只使用了1个核心。我正在使用的数据似乎不允许并行化。有没有一种方法可以知道输入数据是否能够平行化，或者它是不是一个合适的RDD？

Answer 1

Spark中的并行化单元是“分区”。也就是说，RDD在分区中分割，并且转换并行地应用于每个分区。 RDD数据如何跨分区分布由分区程序确定。默认情况下，使用HashPartitioner，它可以在大多数情况下正常工作。

您可以使用以下方法检查RDD分割的分区数：

rdd.partitions // Array of partitions