Beam / Dataflow中的批量PCollection

时间:2017-06-03 20:02:04

标签: google-cloud-dataflow apache-beam

我在GCP Dataflow / Apache Beam中有一个PCollection。我不需要一个一个地处理它,而是需要结合N"。像grouped(N)这样的东西。因此,在有界处理的情况下,它将按批次分组10个项目,最后批次分组。 这在Apache Beam中是否可行?

1 个答案:

答案 0 :(得分:3)

编辑,如下所示:Google Dataflow "elementCountExact" aggregation

您应该能够通过将元素分配给全局窗口并使用<activity android:name=".About" android:label="@string/app_name" /> 来执行类似的操作。如果没有足够的元素来触发触发器,您仍然需要考虑什么。你可以用这个:

AfterPane.elementCountAtLeast(N)

但是你应该问自己为什么首先需要这种启发式方法,可能有更多的idomatice方法来解决你的问题。阅读Beam’s programming guide

中的 Repeatedly.forever(AfterFirst.of( AfterPane.elementCountAtLeast(N), AfterProcessingTime.pastFirstElementInPane().plusDelayOf(Duration.standardMinutes(X))))