apache fink 0.10使用时间窗口清除过滤无限流上的重复项

时间:2016-02-24 15:30:13

标签: purge flink-streaming

如何通过时间窗口清除来过滤无限流中的重复项?我没有无限空间/ ram,我知道在说2秒后(在本地时钟上),任何可能发生的重复都会发生。这意味着在2秒后我可以扔掉(清除)旧数据。

使用时间窗口清除过滤无限流上的重复项。

我得到了一个很好的答案,如何在这个问题中删除重复项(非常感谢Till):apache flink 0.10 how to get the first occurence of a composite key from an unbounded input dataStream?

但我不知道如何告诉flink在2秒(当地时间)之后扔掉旧数据。

我怎么能用flink 0.10做到这一点?

非常感谢!!!

这是删除重复但不清除的语句:
input.keyBy(0,1).flatMap(new DuplicateFilter())。print();

如果我在keyBy(0,1)之后添加.timeWindow(Time.minutes(1),Time.seconds(30))则不可编译。

1 个答案:

答案 0 :(得分:2)

感谢Till - 在以下链接的更新中给出了答案: apache flink 0.10 how to get the first occurence of a composite key from an unbounded input dataStream?

查看更新。