应用错误收集

AlpineGizmo评论中的答案是正确的。我将在这里添加更多细节。

Flink将时间窗口与时代的开头（1970-01-01-00:00:00）对齐。这意味着具有1小时窗口的窗口操作符会在每个新小时开始一个新窗口（即00:00，01:00，02:00，...）而不是第一个窗口到达记录。

根据系统的当前时间评估处理时间窗口。如上面的注释中所述，这意味着可以处理的数据量取决于运营商运行的机器的处理资源（硬件，CPU / IO负载......）。因此，处理时间窗口不能产生可靠和一致的结果。

我的情况是，两种描述的效果都可能导致作业不一致的结果。根据您何时开始作业，数据将被分配到不同的窗口（如果第一个记录在第一个60 msecs窗口关闭之前到达，则只有该元素将在窗口中）。根据机器的IO负载，访问和读取文件可能需要更多或更少的时间。

如果您想获得一致的结果，则需要使用事件时间。在这种情况下，记录根据数据中编码的时间进行处理，即结果仅取决于数据，而不取决于外部效果，如作业的开始时间或加工机器的负载。 / p>