我们可以对批处理进行加窗处理吗?

时间:2019-08-26 21:50:14

标签: batch-processing apache-beam dataflow

在Apache Beam文档中,我们讨论了带边界PCollection的窗口化。

https://beam.apache.org/documentation/programming-guide/#windowing

如果我们有一个有限数据,则所有元素都将属于同一GLOBAL窗口。 在用例中,是否需要在批处理中应用窗口?

1 个答案:

答案 0 :(得分:1)

有界数据没有时间和水印的概念。因此,对于批处理管道,窗口不过是可在分组时使用的多部分键的一部分。

一个可能的用例是从1天数据的语料库中每小时获取唯一身份用户列表。但是,也可以通过应用您自己的密钥(小时)和分组来完成此操作。

Beam具有统一的批处理和流传输模型,以及用于批处理和流传输的类似api,因此在批处理和流传输中都可以使用开窗概念。