我正在调查Google Dataflow的一个用例,我想知道是否可以将后续步骤中产生的数据排序为固定时间窗口的结果?如果是这样,我应该从现有的core transform延伸还是自己滚动?
答案 0 :(得分:2)
在Google Cloud Dataflow中,PCollection
窗口中的元素没有已定义的顺序,但可以通过其他方式解决许多用于排序的用例。例如,您可以通过基于Combine
的库转换Top
检索“top n 元素”。如果您的数据具有较小的每窗口基数,那么您可以将窗口中的元素作为side input读取并对其进行排序或以其他方式实现目标。
我想更多地了解您的用例,以便我可以提供更具体的答案。