Question

当我从spark shell运行这个示例应用程序时，我在UI上看到有一个执行器有8个任务。为什么这么小的数据集需要8个任务？

请注意，我在具有8个核心的独立本地群集上运行。

val data = Array(1,2,3,4)
val distData = sc.parallelize(data)
distData.collect()

Answer 1

默认分区等于最大核心数。您可以传入第二个参数来覆盖分区数。