数据流是否会避免SlidingWindows中的重复计算?

时间:2016-06-02 08:29:24

标签: google-cloud-dataflow

在云数据流中,可以在SlidingWindow的情况下将元素分配到多个窗口,其具有大小和步长。假设我们有一个大尺寸的SlidingWindow,其步长非常小,实际上除了滑动步骤之外,两个相邻窗口中的元素几乎相同。

那么在每个SlidingWindow上计算只是简单地加载这个窗口中的所有元素并触发这些元素的计算?或者相邻的窗口可以重用一些计算结果以避免重复计算?是否在分配到多个窗口时复制元素?

1 个答案:

答案 0 :(得分:1)

Dataflow没有对此SlidingWindows进行任何特殊处理。该元素出现在分配给它的每个窗口中。

我们通常使用常规SlidingWindows后发现性能问题CombineFn。如果您遇到问题,我们建议您先尝试一下,然后详细了解您尝试计算的内容以及窗口的详细信息。

在存在用户定义的窗口化,触发,无序数据和系统中已存在的其他优化时,自动执行此优化并不能很好地工作。