Spark UI事件时间轴中的空白是什么?

时间:2018-12-19 22:28:55

标签: apache-spark amazon-s3 spark-ui

我有一个运行在YARN群集上的Spark批处理应用程序(在AWS EMR中)。当我从S3读取应用程序的输入并将输出也写入S3时,该应用程序会花费很多时间(将近6分钟)。我猜想这是由于读写S3时的延迟问题引起的。为了证明我的猜测是正确的,我进入了火花事件的时间轴,以了解需要花费时间。这是时间表:

enter image description here 我的保存功能后有巨大的空白。我看到保存功能在大约10-15秒内完成执行。 它实际上已经完成运行并且执行程序处于空闲状态吗?

为了改善应用程序的运行时间,我做了一个实验。我使用HDFS而不是S3。我从HDFS读取应用程序的输入,并将输出也写入HDFS。该应用仅花费了1.5分钟。在这种情况下,火花事件时间轴如下所示: enter image description here 空格消失了。

  1. 我以前的活动时间轴上有哪些空格?
  2. 为什么某些作业(即事件时间线中的蓝色框)垂直垂直分散?
  3. 为什么foreach()作业和save()作业没有垂直分散?
  4. 工作垂直分散是什么意思?

0 个答案:

没有答案