应用错误收集

我在Spark集群中运行一些实验，其中有一些机器高负载的CPU，内存和网络消耗过程（让我们来电他们是落伍的机器。）

显然，这些机器的任务执行时间比其他机器要长集群的节点。但是我注意到了取消的任务来自这些＆＃34; straggler机器的数据＆＃34;也会因为长时间阅读Shuffle而延迟数据阶段。

无论如何都知道任务正在从哪台机器上读取它的随机播放数据？。像node1这样的东西正在从[node2，node3]读取它的shuffle数据和node4]？

提前致谢