从高负载节点读取Shuffle数据

时间:2016-05-10 13:40:41

标签: apache-spark

我在Spark集群中运行一些实验,其中有一些机器 高负载的CPU,内存和网络消耗过程(让我们来电 他们是落伍的机器。)

显然,这些机器的任务执行时间比其他机器要长 集群的节点。但是我注意到了取消的任务 来自这些" straggler机器的数据"也会因为长时间阅读Shuffle而延迟 数据阶段。

无论如何都知道任务正在从哪台机器上读取它的随机播放 数据?。像node1这样的东西正在从[node2,node3]读取它的shuffle数据 和node4]?

提前致谢

0 个答案:

没有答案