我在Spark Streaming Job中遇到了一个奇怪的行为。 我们使用了spark.streaming.concurrentJobs的默认值,即1。 正确运行相同的流式处理作业超过一天,批处理间隔设置为10分钟。 突然之间,同一个工作已经开始同时运行所有批次而没有将它们放入队列。
以前有人遇到过这个吗? 这将是非常有帮助的!
答案 0 :(得分:0)
这种行为似乎很奇怪,但我相信,当一次只运行一个作业并且批处理时间<1时,似乎会发生这种情况。批处理间隔,然后系统似乎是稳定的。
Spark Streaming的创作者Tathagata hs提到了这个问题:How jobs are assigned to executors in Spark Streaming?。