火花流的调度延迟突然增加作业不改变其他参数

时间:2016-10-31 20:16:20

标签: apache-spark spark-streaming

我有1秒批量生产的火花流工作。我使用CDH 5.5 Spark 1.5。我们使用Kafka Create Directstream。我们启用了背压。我们不想起诉动态分配所以用修复号的执行者执行作业。

below image我可以看到这些是从13.50突然增加的调度延迟但是在同一时间我没有看到处理时间中的任何dealy。

  1. 处理时间相同的调度时间增加的原因可能是什么。
  2. 群集中的其他作业是否会影响当前的流式传输作业。根据我的理解,不应该是这种情况,因为流媒体的执行者已经预先分配并且已经在运行
  3. 有什么想法吗?

    enter image description here

1 个答案:

答案 0 :(得分:0)

一开始这确实是一个奇怪的问题,但让我们谈谈Does other job loads in the cluster effect the current streaming job。答案是,如果另一个进程开始在同一个集群上运行,cpu共享将受到影响,并且可能导致争用,此时您将看到等待。你有机会在容器中运行火花吗?由于我不知道您如何设置群集,因此很难完全理解您的问题。