我有兴趣了解以下火花并行性和分区技巧
答案 0 :(得分:0)
查看它的方式不正确。执行者什么都不拿着,它确实起作用。
分区由已分配给执行器的内核处理。执行器通常具有1个核心,但可以具有多个这样的核心。
一个应用程序具有可转换为1个或多个作业的操作。
一个作业具有阶段(基于随机边界)。
阶段具有任务,这些任务的数量取决于分区的数量。
对分区的并行处理取决于分配给执行程序的内核数。
Spark在内核,内存和磁盘方面具有可扩展性。与您的问题有关的后两个意思是,如果分区不能全部适合您工作的工作器上的内存,则该分区或更多分区将全部溢出到磁盘上。