当我的Spark流作业开始时,它无法按批处理持续时间处理所有数据,因此反压会降低批处理大小。
这不是问题。 几个小时后发生的事件,当它处理来自Kafka流的所有数据(并且假设没有进一步向Kafka产生数据)时,批处理时间仍显示过去的时间。
但是,如果有任何数据,那么它便可以在那里进行处理。例如, 我在下午3点左右在卡夫卡发布了一个事件,但它按批处理时间:2020/02/20 13:37:30
进行了批量处理我的问题是Spark UI中的“批处理时间”是多少。以及为什么它具有当前事件时显示过去的时间。以及它与提交时间
有何不同火花配置
"spark.shuffle.service.enabled", "true"
"spark.streaming.receiver.maxRate", "10000"
"spark.streaming.kafka.maxRatePerPartition", "600"
"spark.streaming.backpressure.enabled", "true"
"spark.streaming.backpressure.initialRate", "10000"
"spark.streaming.blockInterval", "100ms"
"spark.executor.extraJavaOptions", "-XX:+UseConcMarkSweepGC"