有没有办法检查Spark中的变量是否可并行化?

时间:2014-11-08 12:43:17

标签: python scala bigdata apache-spark

所以我在spark中使用了groupByKey函数,但它没有被并行化,因为我可以看到它在执行期间只使用了1个核心。我正在使用的数据似乎不允许并行化。有没有一种方法可以知道输入数据是否能够平行化,或者它是不是一个合适的RDD?

1 个答案:

答案 0 :(得分:1)

Spark中的并行化单元是“分区”。也就是说,RDD在分区中分割,并且转换并行地应用于每个分区。 RDD数据如何跨分区分布由分区程序确定。默认情况下,使用HashPartitioner,它可以在大多数情况下正常工作。

您可以使用以下方法检查RDD分割的分区数:

rdd.partitions // Array of partitions