Spark流-工作持续时间与已提交

时间:2018-08-30 09:27:21

标签: apache-spark pyspark spark-streaming

我正在尝试优化一个Spark Streaming应用程序,该应用程序从Kafka集群中收集数据,对其进行处理并将结果保存到各种数据库表中。 Spark UI中的“作业”选项卡显示每个作业的持续时间以及其提交时间。

我希望对于特定的批处理,当上一个作业完成时,作业将开始处理。但是,在所附的屏幕截图中,上一个作业完成后,作业的“提交”时间不正确。例如,作业1188的持续时间为1秒,并在12:02:12提交。我希望下一个作业将在一秒钟后或至少接近它提交,但它将在六秒钟后提交。

enter image description here

关于如何解释这种延迟的任何想法?这些作业属于同一批次,并按顺序完成。我知道作业和任务之间会有一些调度延迟,但是我不希望它这么大。而且,舞台的事件时间轴不会显示较大的调度延迟。

我正在以独立模式使用Pyspark。

0 个答案:

没有答案