
时间:2016-05-22 12:45:32

标签: apache-spark rdd

我正在尝试理解RDD分区逻辑。 RDD在节点之间进行分区,但希望了解此分区逻辑的工作原理。


enter image description here


我检查了没有分配给文件的块 - 它是1块,因为文件非常小但是当我在该文件上创建RDD时,它显示了两个分区。为什么是这样 ?我在某个地方看到分区也依赖于核心,在我的情况下仍然不能满足那个输出。


1 个答案:

答案 0 :(得分:2)


textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]

使用第二个参数minPartitions,您可以设置要获取的最小分区数。如您所见,默认情况下,它设置为defaultMinPartitions,而def defaultMinPartitions: Int = math.min(defaultParallelism, 2) 又定义为:


spark.default.parallelism的值配置为min(4, 2)设置,默认情况下,该设置取决于在本地模式下运行Spark时的核心数。在你的情况下这是4,所以你得到

