分区如何映射到Spark中的任务?

时间:2015-04-23 18:10:28

标签: apache-spark rdd

如果我将RDD划分为60,并且我在20台机器上共有20个核心,即20个单核机器实例,那么任务数量为60(等于分区数量) )。为什么这比每个核心有一个分区并且有20个任务更有益呢?

此外,我已经运行了一个实验,我将分区数设置为2,检查UI显示任何时候运行的2个任务;然而,让我感到惊讶的是,它在完成任务时切换实例,例如node1和node2执行前2个任务,然后node6和node8执行下一组2个任务等。我认为通过将分区数设置为小于集群中的核心(和实例),程序将只使用最小值需要的实例数。谁能解释这种行为?

1 个答案:

答案 0 :(得分:2)

对于第一个问题:您可能希望拥有比严格必要的更细粒度的任务,以便同时将更少的内容加载到内存中。此外,它可以帮助提高容错能力,因为在发生故障时需要重做更少的工作。但它仍然是一个参数。通常,答案取决于工作负载的类型(IO绑定,内存绑定,CPU绑定)。

至于第二个,我认为版本1.3有一些动态请求资源的代码。我不确定中断版本是哪个版本,但旧版本只是请求您配置驱动程序的确切资源。至于分区如何从一个节点移动到另一个节点,AFAIK它将从具有HDFS上该数据的本地副本的节点中选择任务的数据。由于hdfs具有每个数据块的多个副本(默认情况下为3个),因此可以有多个选项来运行任何给定的部分)。