标签: apache-spark spark-streaming
我有一个简单的Spark流式WordCount应用程序,它从Kafka主题中读取数据。在此应用程序中,启用检查点以计算累计字数。流内部是1000毫秒。下图显示了此流应用程序中微批次的表格(延迟,执行时间,总延迟,事件)。让我感到困惑的是,每隔10秒,就会有一个微批处理需要大约4秒才能执行,这远远超过其他微批处理的执行时间。为什么会出现这种情况?我的应用程序只是一个非常简单的字数统计程序。