我正在运行spark streaming,它正在消耗来自kafka的消息。我还在我的spark代码中定义了checkpoint目录。
昨天我们在kafka上传了大量的短信。当我使用 -
检查kafka中的偏移状态时bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group xxx- \
streaming-consumer-group --zookeeper xxx.xxx.xxx.xxx:2181
它显示没有消息滞后。然而,我的火花工作仍在运行最后10个小时。
我的理解是spark-streaming代码应该按顺序读取消息,并且应该相应地更新kafka中的偏移量。
即使kafka中没有消息滞后,我也无法弄清楚为什么spark仍在运行。有人可以解释一下吗?