标签: apache-spark pyspark apache-kafka
我正在pyspark中处理30多批次的Kafka流。但是,我并不总是在每30s批次的日志中看到批次详细信息。每一批的完成时间都比30秒要早得多,所以这似乎不是由于执行者很忙:
完整的批处理如下所示:
请注意,我在03:03:00和03:05:00之间缺少批次,但是我确实正确获取了03:05:30批次。