标签: apache-spark
场景:RDD中的大量对象,然后是昂贵的地图函数,然后是收集。
地图功能需要不同的时间。
我认为分区最初是在工人中平均分配的。
如果一个工作人员碰巧得到很多较慢的分区会发生什么情况,其他节点是否会从过度工作的节点中获取分区?
答案 0 :(得分:0)
打开猜测来解决此问题。你可以看一下这段视频:{34}从第34分钟到第56分钟,深入了解它是如何工作的。
希望这有帮助,
Le Quoc Do