我正在使用Spark流应用程序,该应用程序从Kafka读取avro消息并处理它们。流的批处理时间是20秒。
我在Spark 1.3.0上运行了一个应用程序,每个批处理的调度延迟为0毫秒,但现在升级到Spark 1.6.0后,我看到调度延迟增加,单个批处理的处理时间增加时间。
由于Spark版本的升级,处理时间正在增加,但应用程序运行时具有相同的配置和相同的接收消息率。
从Spark Web UI我可以看到,似乎需要花费大量时间的操作是DStream对象上的映射。它看起来很奇怪,因为它不是一个特别繁重的操作。
是否有人注意到将spark和spark-streaming升级到1.6.0的相同问题?
提前致谢