创建流式上下文时设置批处理间隔的效果
new StreamingContext(spark.sparkContext,batchInterval)
根据亚马逊blog,Kinesis批处理间隔被硬编码为1秒。
答案 0 :(得分:0)
博客中提到的Kinesis批处理间隔是接收方从流中读取数据的时间间隔,默认情况下设置为1秒。此间隔仅决定接收器的输入速率。
创建StreamingContext时提供的batchInterval将输入记录分成给定间隔的批次,以便通过spark streaming进行处理。
例如,如果你有单个Kinesis接收器并且你的batchInterval是10秒,那么接收器将能够在10秒内读取多达10000条记录,即从Kinesis流读取每秒间隔1000条记录。因此,您的流式传输批次将包含10000条记录。