我正在尝试与某些网络监视器一起工作。我的目标是每个dst_ip
计算出不同的src_ip
。
我的以下代码可以工作,但是性能确实很差。似乎每个滑动窗口都会重新计算所有事件,但这不是必须的。
例如,我们在1到600秒的时间上发生事件。Flink可以获取每秒的累加器,因此我们每秒可以有600个累加器。当第一个滑动窗口到期时,flink只会合并1-300的累加器,并销毁第二个1的累加器。此窗口也可以在最后一秒之前预合并1-299。当第二个滑动窗口到期时,flink只会合并2-301的累加器,然后销毁第二个2的累加器。依此类推........
这种方法比将事件分配给多个窗口并计算每个窗口的聚合效率要高得多。
flink支持吗?我可以通过flink自己获得类似的功能吗?
非常感谢!
public static class AverageAccumulator2 {
String key;
Set<String> target;
AverageAccumulator2() {
target = new HashSet<>();
}
}
public static class Average2 implements AggregateFunction<ObjectNode, AverageAccumulator2, Tuple3<String, Long, Set<String>>> {
@Override
public AverageAccumulator2 createAccumulator() {
return new AverageAccumulator2();
}
@Override
public AverageAccumulator2 add(ObjectNode value, AverageAccumulator2 accumulator) {
accumulator.key = value.get("value").get("src_ip").asText();
accumulator.target.add(value.get("value").get("dst_ip").asText());
return accumulator;
}
@Override
public Tuple3<String, Long, Set<String>> getResult(AverageAccumulator2 accumulator) {
return new Tuple3<>(accumulator.key, (long) accumulator.target.size(), accumulator.target);
}
@Override
public AverageAccumulator2 merge(AverageAccumulator2 a, AverageAccumulator2 b) {
a.target.addAll(b.target);
return a;
}
}
final SingleOutputStreamOperator<Tuple3<String, Long, Set<String>> > process2 =
stream.keyBy(value -> value.get("value").get("sip").asText())
.timeWindow(Time.seconds(300),Time.seconds(1))
.aggregate(new Average2());
答案 0 :(得分:0)
如您所见,Flink不会尝试优化滑动窗口。细粒度的滑动会变得非常昂贵。
您可以做的是使用ProcessFunction实现用于处理状态和计时器的自己的逻辑-您可以按照概述进行实现。您将拥有一个processElement方法,用于每个传入记录,更新将用于累积结果的数据结构,以及一个onTimer方法,该方法每秒触发一次,将部分结果合并在一起,并将结果发送到下游。