我运行了一个简单的wordcount并尝试准确理解spark如何处理下面有3个执行者的数据,我想知道更多关于shuffle的信息,比如 对于第一个执行者,它写了16.2 KB的数据,它给每个执行者写了多少?另外,shuffle write只对磁盘或磁盘+内存有效吗?
执行人员的汇总指标
时间|任务|失败|成功|输入/记录|随机写/记录
1.4min 6 0 6 1536.0 MB/15571058 16.2 KB / 1638
1.4min 6 0 6 1536.0 MB/15571061 16.4 KB / 1638
1.5min 7 0 7 1682.5 MB/17056569 19.0 KB / 1911
答案 0 :(得分:0)
最后,我弄清楚了如何在火花中完全起作用。 随机写 - >每个执行者都会在地图阶段之后在磁盘上生成本地文件 随机阅读 - >来自所有其他执行者的执行者累积数据 FETCHED 。