在Flink中加入历史记录数据时,一个来源比另一个来源慢得多

时间:2019-02-27 02:05:54

标签: join apache-kafka stream hdfs apache-flink

在带有eventTime的join运算符中使用历史数据时,从一个源读取数据的速度比另一个源慢得多。结果,联接运算符将缓存来自较快源的大量数据,以便等待较慢源。

问题是,如何才能使消费者的速度差异变小?

1 个答案:

答案 0 :(得分:0)

我不确定我理解“……使消费者的速度差异变小”的含义。如果您要避免缓存大量数据,并且无法控制源速度,那么我认为您唯一的选择是使用较小的窗口,以便较少的数据被缓存。有关更多详细信息,请参见Window Join