ApacheByKey中的GroupByKey / Combine函数和窗口链

时间:2018-10-23 02:56:04

标签: google-cloud-dataflow apache-beam apache-beam-io

以下是Apache Beam Windowing的几个问题:

  1. 我有一个Beam Pipeline读取来自Pub / Sub的数据,并通过一组ParDo处理事件,在处理过程中,我们执行groupByKey,然后执行几个ParDo,再执行一次GroupByKey / Combine。我们使用以下触发器设置了一个5分钟大小的窗口。 AfterProcessingTime.pastFirstElementInPane().plusDelayOf(Duration.standardMinutes(5L)

我看到以上策略已应用于我们管道中的每个Combine / groupBY,但是我的管道卡在了第二个groupByKey上。

如果我在每个Combine / GroupByKey上方应用窗口,则我的管道新的暂停和事件将向下游流动。这是基于处理时间的触发器中的预期行为吗?如果不是,我们会缺少什么?

  1. 如果我们使用以下策略在管道乞求中设置一次寡妇 永远重复(AfterProcessingTime.pastFirstElementInPane()。plusDelayOf(2分钟))。或最终(AfterWatermark.pastEndOfWindow())

这是否会持续触发我所有的Combine / GroubBy触发,其中每个groupBy在其发出事件的合并步骤之后都会启动一个窗口?我们觉得只有orFinally在我们所有的联合收割机中都被触发。

0 个答案:

没有答案