应用错误收集

我的Spark应用程序处理来自Kafka的消息并将其写入Cassandra。 3小时后，处理速度几乎突然改变。如果批次大小为10000，则初始速率很好，但3小时后下降了一半。如果批次大小为3000，则初始速率会很低，但3小时后它会增加百分之几。

到目前为止我发现的东西：

我在多次连接中广泛使用Spark SQL，因此我的理论是Spark Catalyst应用了一些“优化”。

rate suddenly goes down a little rate boost after 3 hours if batches are small