似乎我们遇到的问题与此处描述的相同: https://issues.apache.org/jira/browse/SPARK-20780
我已经意识到它是一个Kafka问题,而不是火花,但仍然希望得到一些关于如何采取行动的建议,直到Kafka社区解决该问题。
增加request.timeout并没有太大帮助,因为那时我们可以获得大队列。例如,如果微批次为10秒且Kafka request.timeout.ms
为20秒,则每次出现问题时,都会产生大约20秒的延迟,这将导致2个微批次排队。显然,它发生的越多,它导致的延迟就越多,最终导致相当大的队列。
有关如何解决该问题的最佳做法/解决方法/提示,直到问题得到解决?