应用错误收集

我使用Spark并运行GPSJ查询（两个表的连接和分组）。在第一次两阶段火花从表中读取数据并在随机写入中写入数据并且没有问题。在第三阶段，它读取此数据（随机读取）make join和partial group by并进行另一次shuffle写入。如果我使用2/4/8核心（每个执行者）运行应用程序，它不会发生太大变化。为什么？为什么有一个执行器（从mapper到本地磁盘上的reducer的所有shuffle数据）是如此缓慢（8,9分钟）来重新读取20,7Gb并写入380Mb？（我的磁盘是100Mb / s）我花了类似于21的东西* 1024/100 = 215秒。

为什么我的舞台（随机播放）不能与核心一起扩展？

0 个答案: