Apache Beam推拉窗

时间:2018-10-30 18:26:48

标签: google-cloud-platform apache-beam

让我们假设我有一个2小时的窗口,每1分钟启动一次。 下一步将应用GroupBy变换。

是否在内存中分别保存每个窗口的重叠数据副本?还是Apache Beam有逻辑知道记录A属于多个窗口?

感谢您对此进行解释。找不到真正的相关信息

1 个答案:

答案 0 :(得分:1)

这是实现细节,管道作者不应该观察(或观察)。 Beam / runner可以潜在地决定融合多个变换,并保留和重用内存中的元素。或不。

我不知道是否涵盖了此特定主题,但是在ParDo section in the programming guide末尾,关于元素的不变性的说法很少。 Beam执行模型的整体描述为here