我的Spark应用程序处理来自Kafka的消息并将其写入Cassandra。 3小时后,处理速度几乎突然改变。如果批次大小为10000,则初始速率很好,但3小时后下降了一半。如果批次大小为3000,则初始速率会很低,但3小时后它会增加百分之几。
到目前为止我发现的东西:
SpecificPredicate.EqualTo_4
中。我不明白为什么这种方法会成为瓶颈。spark.sql.autoBroadcastJoinThreshold
=“ -1”时,费率在10小时后下降。我在多次连接中广泛使用Spark SQL,因此我的理论是Spark Catalyst应用了一些“优化”。