在使用PubsubIO的Dataflow中,全局窗口中是否存在后期数据的可能性?

时间:2018-04-03 09:16:07

标签: google-cloud-dataflow google-cloud-pubsub

我将开始在Google Cloud Pubsub中开发程序。只是想确认一次。

从光束文档中,只有在Pubsub声明数据的情况下才会发生数据丢失。假设在使用全局窗口时数据总是在没有任何消息丢失(延迟数据)的情况下传送是否安全?

从水印和迟到的概念我得出结论,这些指标在自定义窗口应用于基于事件的触发器接收的数据的条件下是至关重要的。

1 个答案:

答案 0 :(得分:0)

当您处理流数据时,选择全局窗口基本上意味着您将完全忽略事件时间。相反,您将使用触发器在处理时间(即,它们到达时)中拍摄数据的快照。因此,您无法再将数据定义为" late" (不是"早期"或"准时"就此而言)。

如果您对这些事件实际发生的时间不感兴趣,您应该选择此方法,而是只想根据观察顺序对它们进行分组。我建议您浏览this有关流数据处理的精彩文章,尤其是 When / Where:Processing-time windows 下的部分,其中包含一些比较不同窗口策略的不错视觉效果。