如果我通过spark文本文件API加载csv
文件,我的RDD
分区了吗?
如果是,那么这个数字是多少?有人可以解释Apache Spark中默认并行性的含义。
答案 0 :(得分:0)
Alberto Bonsanto的评论链接到一篇文章,该文章描述了分区在Spark中的工作原理。
要回答有关分区数量的问题,可以运行以下命令查找RDD中的分区数。
在python中:
rdd = sc.parallelize(xrange(1,10))
print rdd.getNumPartitions()
在scala中:
val rdd = sc.parallelize(1 to 100)
println(rdd.partitions.length)
如果你有一个DataFrame,你可以调用df.rdd
来回退到底层的RDD。