我在实习中挣扎,被告知要实施一个系统来跟踪用户事件的实时汇总。
输入数据来自Kafka集群。为了简单起见,让我们说模式是
{"userId" = "AAA", "region" = "US", {"like" = 1}}
对于机器学习团队和操作团队,我必须将结果汇总到每5分钟,每1小时和每天,并对网络抖动具有容错能力。他们希望像每5分钟计数那样聚合数据,但是它不是任意的,它必须像10:00-10:05 10:05-10:10。时间和日期相同。
因此,我必须与系统时间进行比较,以决定是否应将元素放入存储桶并计算该存储桶内的聚合。
首先,我试图通过尝试使用带有窗口的Flink之类的工具来解决此问题。我发现3个窗口的大小分别为5分钟,1小时和1天。并将onElement回调用于整个时间点的边缘条件。但是一段时间内,内存负载是无法预测的,有很多不同的用户停留在窗口中并导致某些节点性能问题。
所以我必须使用一些KV存储作为部分计算的数据的中间值。
然后我使用Redis集群来保存KV存储。但是似乎Flink对Redis的影响太大,Flink的吞吐量比Redis高得多。 DAU在全球范围内约为1000万。
似乎只有一种方法可以修改附加到Flink的Rocketdb并实现一些缓存,而不是删除窗口。
我想知道以前有没有人实现过这种系统,并给我一些建议。
谢谢。