希望你一切都好。
问题陈述:开发流分析,如果条件满足,将触发警报。
我有从家用电器(灯泡,风扇,电视等)连续生成的时间序列数据。我想在保持一小时窗口的情况下计算当前流数据的平均值。
输入模式: 房屋ID,房屋ID,时间戳,能源消耗。
警报条件: 具有1小时窗的当前流数据的平均值>所有过去数据的标准偏差。
例如,如果我有从(01/01/2019)开始的数据并且正在处理(04/01/2019)的数据,则我的流式应用程序应计算过去三天数据的SD(标准差)并将其与当前数据的平均值。
注意: 1)我们正在处理海量数据,因此它是大数据问题。请向我建议解决此问题的工具/技术。
2)已经使用过Tick堆栈(Influxdb),但是由于某些业务限制,我无法使用它。
3)如果我们使用火花流式传输,对我来说挑战是,我将如何计算S.D.。以前的数据。