Spark默认的分区数

时间:2015-11-29 22:18:54

标签: apache-spark

如果我通过spark文本文件API加载csv文件,我的RDD分区了吗?  如果是,那么这个数字是多少?有人可以解释Apache Spark中默认并行性的含义。

1 个答案:

答案 0 :(得分:0)

Alberto Bonsanto的评论链接到一篇文章,该文章描述了分区在Spark中的工作原理。

要回答有关分区数量的问题,可以运行以下命令查找RDD中的分区数。

在python中:

rdd = sc.parallelize(xrange(1,10))
print rdd.getNumPartitions()

在scala中:

val rdd = sc.parallelize(1 to 100)
println(rdd.partitions.length)

如果你有一个DataFrame,你可以调用df.rdd来回退到底层的RDD。