有没有办法在Spark Streaming中改变批处理间隔持续时间(即,取决于代码中的一些测试),以便它在所有计算时间内保持不变?
例如,在Python中编码时,批处理间隔持续时间是
中的第二个参数 StreamingContext(sparkContext: SparkContext, batchDuration: Duration)
;
例如,ssc = StreamingContext(sc, 1)
,
据我所知,在执行期间不会改变。
在计算过程中,Spark是否有可能使其变为,即相应于某些测试的输出?
可能使用的一个愚蠢示例:在class newtork_wordcount.py
中,如果在上一个批处理间隔中有特定字符串(或行),则增加批处理间隔持续时间。
我希望我已经足够清楚了!
感谢任何愿意提供帮助的人!祝你今天愉快! : - )
答案 0 :(得分:0)
我认为你不能改变火花流中的批量大小,至少这是Tathagata Das在他的一次谈话中所说的。
答案 1 :(得分:0)
实际上,TD的paper可能会回答您的问题。他试图使用动态批处理间隔并获得更好的结果。