应用错误收集

似乎我们遇到的问题与此处描述的相同： https://issues.apache.org/jira/browse/SPARK-20780

我已经意识到它是一个Kafka问题，而不是火花，但仍然希望得到一些关于如何采取行动的建议，直到Kafka社区解决该问题。

增加request.timeout并没有太大帮助，因为那时我们可以获得大队列。例如，如果微批次为10秒且Kafka request.timeout.ms为20秒，则每次出现问题时，都会产生大约20秒的延迟，这将导致2个微批次排队。显然，它发生的越多，它导致的延迟就越多，最终导致相当大的队列。

有关如何解决该问题的最佳做法/解决方法/提示，直到问题得到解决？