在Apache Beam文档中,我们讨论了带边界PCollection的窗口化。
https://beam.apache.org/documentation/programming-guide/#windowing
如果我们有一个有限数据,则所有元素都将属于同一GLOBAL窗口。 在用例中,是否需要在批处理中应用窗口?
答案 0 :(得分:1)
有界数据没有时间和水印的概念。因此,对于批处理管道,窗口不过是可在分组时使用的多部分键的一部分。
一个可能的用例是从1天数据的语料库中每小时获取唯一身份用户列表。但是,也可以通过应用您自己的密钥(小时)和分组来完成此操作。
Beam具有统一的批处理和流传输模型,以及用于批处理和流传输的类似api,因此在批处理和流传输中都可以使用开窗概念。