在执行期间更改Spark Streaming中的批处理大小

时间:2015-02-11 19:59:47

标签: python batch-file apache-spark spark-streaming

有没有办法在Spark Streaming中改变批处理间隔持续时间(即,取决于代码中的一些测试),以便它在所有计算时间内保持不变?

例如,在Python中编码时,批处理间隔持续时间是

中的第二个参数

StreamingContext(sparkContext: SparkContext, batchDuration: Duration);

例如,ssc = StreamingContext(sc, 1)

据我所知,在执行期间不会改变。

在计算过程中,Spark是否有可能使其变为,即相应于某些测试的输出?

可能使用的一个愚蠢示例:在class newtork_wordcount.py中,如果在上一个批处理间隔中有特定字符串(或行),则增加批处理间隔持续时间。

我希望我已经足够清楚了!

感谢任何愿意提供帮助的人!祝你今天愉快! : - )

2 个答案:

答案 0 :(得分:0)

我认为你不能改变火花流中的批量大小,至少这是Tathagata Das在他的一次谈话中所说的。

答案 1 :(得分:0)

实际上,TD的paper可能会回答您的问题。他试图使用动态批处理间隔并获得更好的结果。