Spark Streaming中的过去批处理时间

时间:2020-02-20 10:42:42

标签: apache-spark spark-streaming

当我的Spark流作业开始时,它无法按批处理持续时间处理所有数据,因此反压会降低批处理大小。 enter image description here

这不是问题。 几个小时后发生的事件,当它处理来自Kafka流的所有数据(并且假设没有进一步向Kafka产生数据)时,批处理时间仍显示过去的时间。

enter image description here

enter image description here

但是,如果有任何数据,那么它便可以在那里进行处理。例如, 我在下午3点左右在卡夫卡发布了一个事件,但它按批处理时间:2020/02/20 13:37:30

进行了批量处理

我的问题是Spark UI中的“批处理时间”是多少。以及为什么它具有当前事件时显示过去的时间。以及它与提交时间

有何不同

火花配置

"spark.shuffle.service.enabled", "true"
"spark.streaming.receiver.maxRate", "10000"
"spark.streaming.kafka.maxRatePerPartition", "600"
"spark.streaming.backpressure.enabled", "true"
"spark.streaming.backpressure.initialRate", "10000"
"spark.streaming.blockInterval", "100ms"
"spark.executor.extraJavaOptions", "-XX:+UseConcMarkSweepGC"

0 个答案:

没有答案