直接Kafka输入流和窗口(...)函数

时间:2016-03-17 20:31:27

标签: apache-spark spark-streaming

我在Spark应用程序中使用direct-Kafka-input-stream。当我在链中使用window(...)函数时,它将导致处理管道停止 - 当我打开Spark-UI时,我可以看到流式批处理正在排队,并且管道报告处理第一批中的一个

窗口(..)函数的派生 - 如reduceByKeyAndWindow(..)等按预期工作 - 管道不会停止。使用不同类型的流时也是如此。

与direct-Kafka-input-stream一起使用时,是否存在一些已知的window(..)函数限制?

由于

马丁

Java伪代码:

org.apache.spark.streaming.kafka.DirectKafkaInputDStream s;
s.window(Durations.seconds(10)).print();  // the pipeline will stop

更正确:问题仅在窗口重叠时发生(如果sliding_interval< window_length)。否则系统会按预期运行。

0 个答案:

没有答案