我们正在收到一个号码的活动。独立数据源,因此,到达我们的Flink拓扑(通过Kafka)的数据将会出现故障。
我们在Flink拓扑中创建1分钟的事件时间窗口,并在源操作员处生成事件时间水印(当前事件时间 - 某个阈值(30秒))。
如果在设定的阈值之后有几个事件到达,那么这些事件将被忽略(在我们的情况下这是正常的,因为属于该分钟的大多数事件已经到达并在相应的窗口中被处理)。 / p>
现在,问题在于,如果程序崩溃(无论出于何种原因),然后从最后一个成功检查点再次恢复,乱序到达的事件将触发执行过去(已处理)的窗口(只有一个小的在那个窗口中的事件)压倒prev的结果。计算那个窗口。
如果Flink检查了事件时间水印,则不会发生此问题。
所以,我想知道是否有办法强制执行事件时间水印' Flink中的检查点......
答案 0 :(得分:1)
虽然这是一个老问题,但我也遇到了同样的问题。应用程序正在重新启动,并且带有事件时间窗口的 join 函数不再触发,因为来自其中一个流的事件在崩溃之前已完成。加入可以恢复状态,但由于其中一个流不再有水印,事件在重新启动后永远不会加入。
我找到的解决方案是在源操作符之后为最新的水印创建一个检查点。由于没有 UDF 来保存水印的快照,我必须创建自己的操作符,它不会更改事件(身份函数)并将最新的水印保存为其状态。当 Flink 从崩溃中恢复时,WatermarkStreamOperator.initializeState()
会在行 ListState<Long> latestWatermark
上的 processWatermark(new Watermark(maxWatermark))
上发出最后一个水印检查点。然后可以触发与事件时间窗口的join。
public class WatermarkStreamOperator<IN> extends AbstractUdfStreamOperator<IN, WatermarkFunction<IN>>
implements OneInputStreamOperator<IN, IN> {
private static final long serialVersionUID = 1L;
private ListState<Long> latestWatermark;
public WatermarkStreamOperator(WatermarkFunction<IN> mapper) {
super(mapper);
chainingStrategy = ChainingStrategy.ALWAYS;
}
@Override
public void initializeState(StateInitializationContext context) throws Exception { System.out.println("WatermarkStreamOperator.initializeState");
super.initializeState(context);
ListStateDescriptor<Long> descriptor = new ListStateDescriptor<>("latest-watermark", Long.class);
latestWatermark = context.getOperatorStateStore().getListState(descriptor);
List<Long> watermarkList = new ArrayList<>();
latestWatermark.get().forEach(watermarkList::add);
Long maxWatermark = watermarkList.stream().max(Long::compare).orElse(0L);
if (!maxWatermark.equals(Long.valueOf(0l))) {
System.out.println("watermarkList recovered max: " + maxWatermark);
processWatermark(new Watermark(maxWatermark));
}
}
@Override
public void processElement(StreamRecord<IN> element) throws Exception {
output.collect(element);
}
@Override
public void processWatermark(Watermark mark) throws Exception {
System.out.println("processing watermark: " + mark.getTimestamp()); latestWatermark.update(Arrays.asList(mark.getTimestamp()));
super.processWatermark(mark);
}
}
以及操作员的身份 UDF:
public interface WatermarkFunction<T> extends Function, Serializable {
T process(T value) throws Exception;
}
最后,我使用 .transform()
用 WatermarkStreamOperator
调用我的 MyTupleWatermarkFunc
。
DataStream<Tuple2<String, Integer>> dataStream = env
.addSource(new MySource(sentence))
.transform("myStatefulWatermarkOperator",
TypeInformation.of(String.class),
new WatermarkStreamOperator<>(new MyTupleWatermarkFunc()))
...
...
public class MyTupleWatermarkFunc implements WatermarkFunction<String> {
private static final long serialVersionUID = 1L;
@Override
public String process(String value) throws Exception {
return value;
}
}
答案 1 :(得分:0)
我认为最简单的解决方案是在窗口运算符后注入ProcessFunction
。
ProcessFunction
可以通过其Context
对象访问当前水印,并可以将其存储在联合运营商状态。
如果失败,ProcessFunction
将从其状态恢复水印,并过滤所有时间戳小于水印的记录(时间戳也可通过Context
obejct访问)。