我在Spark应用程序中使用direct-Kafka-input-stream。当我在链中使用window(...)函数时,它将导致处理管道停止 - 当我打开Spark-UI时,我可以看到流式批处理正在排队,并且管道报告处理第一批中的一个
窗口(..)函数的派生 - 如reduceByKeyAndWindow(..)等按预期工作 - 管道不会停止。使用不同类型的流时也是如此。
与direct-Kafka-input-stream一起使用时,是否存在一些已知的window(..)函数限制?
由于
马丁
Java伪代码:
org.apache.spark.streaming.kafka.DirectKafkaInputDStream s;
s.window(Durations.seconds(10)).print(); // the pipeline will stop
更正确:问题仅在窗口重叠时发生(如果sliding_interval< window_length)。否则系统会按预期运行。