Spark Streaming + Kinesis:初始记录消耗

时间:2016-11-28 05:03:54

标签: spark-streaming amazon-kinesis

我正在用Kinesis Stream喂养Spark流媒体。 我的项目使用1s批次, 在第一批中(队列包含几百万个项目,并且任务被告知从流的开头开始) 火花流开始消耗批量的10K记录。 这种情况每10/20发生一次。

即:

t0 -> records : 0 t1 -> records : 0 ..... t10 -> records: 10.000 -> total process time is 0.8s (lower than batch time) t11 -> recods : 0 .. t15 ->records : 0 .. t20 -> records: 10.000

这种情况发生,直到火花与气流顶部一起向上。在htat之后,每个批次都会每秒处理一次元素。

感觉就像在起始点一样,它应该始终如一地处理每批次的多个记录,而没有htat高数量的批处理没有处理任何记录。

我忽略的任何设置?是预期的描述行为?

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:0)

此问题的原因是这个错误:spark-kinesis使用者中的https://issues.apache.org/jira/browse/SPARK-18620,它没有正确设置maxRate。