Spark Shuffle溢出指标

时间:2018-06-29 14:28:40

标签: apache-spark shuffle

我在spark webUI中注意到在spark 2.3群集上运行作业,某些任务会发生溢出:

enter image description here

我了解到,在约简方面,约简会获取所需的分区(随机读取),然后使用执行程序的执行内存执行约简计算。由于执行内存不足,因此溢出了一些数据。

我的问题:

  1. 我正确吗?
  2. 数据泄漏到哪里? Spark webUI指出一些数据溢出到了内存 shuffle溢出(内存),但没有任何东西溢出到磁盘 shuffle溢出(磁盘)

预先感谢您的帮助

0 个答案:

没有答案