Question

如果我通过spark文本文件API加载csv文件，我的RDD分区了吗？如果是，那么这个数字是多少？有人可以解释Apache Spark中默认并行性的含义。

Answer 1

Alberto Bonsanto的评论链接到一篇文章，该文章描述了分区在Spark中的工作原理。

要回答有关分区数量的问题，可以运行以下命令查找RDD中的分区数。

在python中：

rdd = sc.parallelize(xrange(1,10))
print rdd.getNumPartitions()

在scala中：

val rdd = sc.parallelize(1 to 100)
println(rdd.partitions.length)

如果你有一个DataFrame，你可以调用df.rdd来回退到底层的RDD。