现在我要求在过去3个月内汇总某人的操作。然后将结果放入ML模型中以获得异常。
考虑到系统的巨大流量,这是一个非常大的窗口。
我该如何处理这种情况?
答案 0 :(得分:0)
您可以使用Flink批处理,因为您有一个数据集,但是,flink是一个真正的流媒体引擎,这意味着批处理被视为流的特殊情况。另一种选择是使用Hadoop进行这种批处理。
答案 1 :(得分:0)
我会根据数据以流式传输的方式回答您的问题,并且您需要在该流之上创建一个窗口,因为您的问题无法清楚地提供该详细信息。
话虽如此,您可以使用RocksDB状态后端创建一个如此巨大的窗口,因为窗口不会存储在内存中,并且您的窗口大小限制仅取决于硬件的硬盘大小。