滑动Windows起点

时间:2018-01-09 00:01:29

标签: google-cloud-dataflow apache-beam

我正在尝试计算有界数据集的某些滑动平均值,这些数据集附加了日期以及某些值。

基于以下文档: https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/transforms/windowing/SlidingWindowshttps://cloud.google.com/dataflow/model/windowing#sliding-time-windows

首先我发布带有outputWithTimestamp的日期戳,将时间戳分为:

Window.into(
    SlidingWindows
        .of(Duration.standardDays(3))
        .every(Duration.standardDays(1)))

因此,对于数据集的PCollection:

[Jan 3rd, 100]
[Jan 4th, 200]
[Jan 5th, 400]

我看到的输出PCollection是[100, 300, 700, 600, 400],这似乎意味着窗口函数以1月1日到3日的窗口开始,并以1月5日 - 1月7日的窗口结束。第一个窗口似乎在我的PCollection之前开始是否有意义?

1 个答案:

答案 0 :(得分:1)

如果要在输出PCollection中指明与每个元素关联的窗口,您会看到:

[Jan 1-3, 100]
[Jan 2-4, 300]
[Jan 3-5, 700]
[Jan 4-6, 600]
[Jan 5-7, 400]

活动时间是"柏拉图式的"从某种意义上说,它一下子就存在了#34;如果您有一个数据集,您知道数据仅在特定时间间隔内完成,则可以过滤这些结果以删除不在具有良好数据的时间间隔内的值。