Question

当我的Spark流作业开始时，它无法按批处理持续时间处理所有数据，因此反压会降低批处理大小。

这不是问题。几个小时后发生的事件，当它处理来自Kafka流的所有数据（并且假设没有进一步向Kafka产生数据）时，批处理时间仍显示过去的时间。

但是，如果有任何数据，那么它便可以在那里进行处理。例如，我在下午3点左右在卡夫卡发布了一个事件，但它按批处理时间：2020/02/20 13:37:30

进行了批量处理

我的问题是Spark UI中的“批处理时间”是多少。以及为什么它具有当前事件时显示过去的时间。以及它与提交时间

有何不同

火花配置

"spark.shuffle.service.enabled", "true"
"spark.streaming.receiver.maxRate", "10000"
"spark.streaming.kafka.maxRatePerPartition", "600"
"spark.streaming.backpressure.enabled", "true"
"spark.streaming.backpressure.initialRate", "10000"
"spark.streaming.blockInterval", "100ms"
"spark.executor.extraJavaOptions", "-XX:+UseConcMarkSweepGC"

Spark Streaming中的过去批处理时间

0 个答案: