服务器通过外部源(Web服务等)为某些进程接收一定速率(每分钟12个)的监视数据。现在流程可以运行一分钟(或小于)或一小时或一天。在过程结束时,我可能有5或720或17280个数据点。正在收集超过40个参数的数据并存储到数据库中以供将来通过Web显示。想象一下,正在运行1000多个进程以及生成的数据量。我必须坚持使用RDBMS(专门针对MySQL)。因此,我希望在将数据存储到数据库之前,通过仅选择统计上显着的点来处理数据并减少数据量。最终目标是在图表上绘制这些数据点,其中Y轴将是时间,X轴将由某个参数(数据点的一部分)表示。
我不想错过任何重大的波动或性质,但同时我无法设法绘制所有数据点(如果数字是巨大的> 100)。
请注意,我了解基本统计术语,如均值,标准差等。
答案 0 :(得分:0)
如果这是一个恒定的过程,您可以绘制平均值(应该是一条平线)和任何超过某个阈值的点。三个标准偏差可能是一个很好的起点,然后看看它是否为您提供了所需的信息。
如果它不是一个持续的过程,你需要弄清楚应该如何随时间变化并做类似的事情:绘制与你的期望大不相同的点时间点。
这应该会给你一个非常干净的图表,同时仍然传达重要的信息。
答案 1 :(得分:0)
如果你希望你的过程有噪音,那么做一些smoothing through a spline可以帮助你减少噪音并压缩你的数据(因为画一个样条你只需要几个点,其中"少数&#34 ;取决于你想要摆脱多少细节,你是任意挑选的。)
但是,如果您的过程没有噪音, 则异常值非常重要 ,因为它们可能代表错误或异常情况。在这种情况下,你最好摆脱接近平均值的点(比如小于1个标准差),并保留那些远点。
一点注意事项:术语"具有统计意义的",描述了一个足够高的确定性来丢弃原假设。我不认为这适用于你的问题。