好的,所以你有一些整数数组形式的历史数据。例如,这可以表示服务器HDD在两年内的自由空间,每个数组元素代表每日样本。
数据(此示例中的自由空间)具有下降趋势,但也有周期性的正峰值,其中文件已被删除/压缩,等等。
您如何确定两年期的整体趋势,即:消除数据的高峰和低谷?
现在,我在我的学位上做了A级统计,然后是统计模块,但是从那以后我已经睡了7,000多次了,好吧,它已经从我的大脑中泄漏了。
我不是在考虑一些代码,更多的描述你如何处理这个问题......
提前致谢!
答案 0 :(得分:5)
您将获得许多不同的答案,您选择的答案实际上取决于您可能具有的更具体的要求。例子:
低通滤波器或任何其他频谱分析技术,并使用低频率来确定趋势。
线性回归(时间/值)找到“r”(时间和值之间的相关性)。
最后“n”个样本的移动平均值。如果“n”足够大,这是我最喜欢的,因为这很多次,这很容易编码。这是对上面#1的一种近似。
我相信他们会成为别人。
答案 1 :(得分:2)
如果我这样做是为了通过积分生成一条线供我查看,我可能会使用一些Loess的变体,在http://en.wikipedia.org/wiki/Local_regression,http://stat.ethz.ch/R-manual和/ R-patched / library中描述/stats/html/loess.html。基本上,您可以通过对该点附近的数据点进行加权回归来找到任何特定点的平滑值,最近的点给出最大权重。