Question

我运行了一个简单的wordcount并尝试准确理解spark如何处理下面有3个执行者的数据，我想知道更多关于shuffle的信息，比如对于第一个执行者，它写了16.2 KB的数据，它给每个执行者写了多少？另外，shuffle write只对磁盘或磁盘+内存有效吗？

执行人员的汇总指标

时间|任务|失败|成功|输入/记录|随机写/记录

1.4min   6    0        6        1536.0 MB/15571058    16.2 KB / 1638
1.4min   6    0        6        1536.0 MB/15571061    16.4 KB / 1638
1.5min   7    0        7        1682.5 MB/17056569    19.0 KB / 1911

Answer 1

最后，我弄清楚了如何在火花中完全起作用。随机写 - ＆gt;每个执行者都会在地图阶段之后在磁盘上生成本地文件 随机阅读 - ＆gt;来自所有其他执行者的执行者累积数据 FETCHED 。

我如何知道在Swuff-write in spark期间向哪个执行器写入了多少数据？

1 个答案: