我有一组流量值,我想分析它们的突然变化,并可能忽略数据中的尖峰/噪音。我已经看过移动平均线,winsorised手段和其他几种可能的解决方案,包括控制系统中的PID控制器,小马库以及关于如何解决这个问题的线索。
下面是一个样本数据集 22.0,22.0,22.0, 22.0,20.8806130178211 ,20.8806130178211,20.8806130178211,20.8806130178211,20.8806130178211, 20.8806130178211,21.840329667841555,21.840329667841555,20.8806130178211, 20.8806130178211,20.8806130178211,20.8806130178211,20.8806130178211, 20.8806130178211,21.840329667841555, 21.840329667841555,21.840329667841555,21.840329667841555, 22.80350850198276
理想情况下,我想检测第1,第3和第4部分的值是否以粗体显示。第二部分可以像穗一样对待。
寻找一种优雅的数学/算法解决方案,其效果类似于移动平均线,因为如果数据长时间不变(动态窗口),它将忽略旧数据。在上述数据的情况下,当考虑下一个数据窗口20.8806130178211时,忽略初始值22。
解决方案(程序/类)应该能够接受新的数据输入值(22.0232)并返回值true或false,如果它计算出值在可接受的范围内,即它没有显着变化。
感谢
SFK
答案 0 :(得分:1)
或许比查看数据中的移动平均值更好的方法是查看数据中更改的移动平均值。因此,您可以获取数据集的第一个差异,并确定大于某个阈值的值。