标签: apache-spark spark-streaming
如果火花流以10秒的批处理间隔获得50行消息,并且在消息的40.5行之后10秒向上,其余的则落入另一个10秒的间隔,前40.5行的文本是首先处理一个RDD,我的用例中的前40行是有意义的但下一个.5行没有意义,第二个RDD的情况也是如此.5行,我的问题甚至是有效的吗?。请建议如何处理这个?。
由于 比尔。
答案 0 :(得分:3)
不可能发生。这两个元素都已收到并且是当前窗口的一部分,或者它没有,并且将包含在下一个元素中。基于文件的源需要创建原子文件,因此根本无法加载文件的一部分。