了解流应用程序的Spark UI

时间:2018-03-21 02:41:28

标签: apache-spark spark-streaming spark-ui

我试图了解我的Spark UI中的条目是什么意思。

enter image description here

调用操作会导致创建作业。我发现很难理解

  1. 创建了多少这些工作?并且这与微批次的数量成正比?
  2. 持续时间列表示什么?
  3. 在实例化流式上下文时设置批次持续时间有什么影响? Spark UI中可见哪些内容?
  4.   

    new StreamingContext(sparkSession.sparkContext,Seconds(50))

1 个答案:

答案 0 :(得分:0)

1.工作与微批次成比例,比如你的流媒体上下文时间为50秒,那么你将在一分钟内完成2个工作

2.Duration,指定处理单个微批次或作业所需的时间。理论上,处理微批次所需的时间应小于为微批次指定的时间。如果是50秒,每个微批次工作应该在那段时间内完成

3.当作业运行时在UI中使用流媒体选项时,您可以看到每个微批处理以50秒的间隔创建

当你点击一个工作时,你会得到那个单一微批/工作阶段的详细信息。我猜你已经分享了相同的屏幕。这里的持续时间指向每个阶段所用的时间。工作完成