我正在用Kinesis Stream喂养Spark流媒体。 我的项目使用1s批次, 在第一批中(队列包含几百万个项目,并且任务被告知从流的开头开始) 火花流开始消耗批量的10K记录。 这种情况每10/20发生一次。
即:
t0 -> records : 0
t1 -> records : 0
.....
t10 -> records: 10.000 -> total process time is 0.8s (lower than batch time)
t11 -> recods : 0
..
t15 ->records : 0
..
t20 -> records: 10.000
这种情况发生,直到火花与气流顶部一起向上。在htat之后,每个批次都会每秒处理一次元素。
感觉就像在起始点一样,它应该始终如一地处理每批次的多个记录,而没有htat高数量的批处理没有处理任何记录。
我忽略的任何设置?是预期的描述行为?
答案 0 :(得分:0)
此问题的原因是这个错误:spark-kinesis使用者中的https://issues.apache.org/jira/browse/SPARK-18620,它没有正确设置maxRate。