让我们假设我有一个2小时的窗口,每1分钟启动一次。 下一步将应用GroupBy变换。
是否在内存中分别保存每个窗口的重叠数据副本?还是Apache Beam有逻辑知道记录A属于多个窗口?
感谢您对此进行解释。找不到真正的相关信息
答案 0 :(得分:1)
这是实现细节,管道作者不应该观察(或观察)。 Beam / runner可以潜在地决定融合多个变换,并保留和重用内存中的元素。或不。
我不知道是否涵盖了此特定主题,但是在ParDo
section in the programming guide末尾,关于元素的不变性的说法很少。 Beam执行模型的整体描述为here。