我如何知道在Swuff-write in spark期间向哪个执行器写入了多少数据?

时间:2015-09-30 07:07:40

标签: apache-spark bigdata apache-spark-sql spark-streaming

我运行了一个简单的wordcount并尝试准确理解spark如何处理下面有3个执行者的数据,我想知道更多关于shuffle的信息,比如 对于第一个执行者,它写了16.2 KB的数据,它给每个执行者写了多少?另外,shuffle write只对磁盘或磁盘+内存有效吗?

执行人员的汇总指标

时间|任务|失败|成功|输入/记录|随机写/记录

1.4min   6    0        6        1536.0 MB/15571058    16.2 KB / 1638
1.4min   6    0        6        1536.0 MB/15571061    16.4 KB / 1638
1.5min   7    0        7        1682.5 MB/17056569    19.0 KB / 1911

1 个答案:

答案 0 :(得分:0)

最后,我弄清楚了如何在火花中完全起作用。 随机写 - >每个执行者都会在地图阶段之后在磁盘上生成本地文件 随机阅读 - >来自所有其他执行者的执行者累积数据 FETCHED