统计检测数据异常的最佳方法

时间:2009-08-20 15:01:53

标签: database statistics data-warehouse

我们的webapp收集有关用户操作,网​​络业务,数据库负载等的大量数据等

所有数据都存储在仓库中,我们对这些数据有很多有趣的看法。

如果发生奇怪的事情,它会出现在数据的某个地方。

但是,要手动检测是否有异常情况发生,必须不断查看这些数据,并寻找奇怪的内容。

我的问题:检测动态数据变化的最佳方法是什么,可以看作是“与众不同”。

Bayesan过滤器(我在阅读有关垃圾邮件检测时已经看到过这些过滤器)了吗?

任何指针都会很棒!

编辑: 以澄清数据为例,显示了数据库负载的每日曲线。 该曲线通常类似于昨天的曲线 随着时间的推移,这条曲线可能会缓慢变化。

如果日常变化的曲线在某些周界内表示会发出警告,那将是很好的。

[R

4 个答案:

答案 0 :(得分:5)

看一下Control Charts,它们提供了一种直观地跟踪数据变化的方法,并指明数据何时“失控”或“异常”。它们大量用于制造以确保质量控制。

答案 1 :(得分:4)

如果不了解有关您所拥有的特定数据的更多信息,则无法回答这个问题。有关存在何种方法的概述,请参阅Chandola,Banerjee和Kumar的Anomaly Detection: A Survey

答案 2 :(得分:1)

这在很大程度上取决于数据。参加统计课程并首先学习基础知识。这通常不是一个简单或简单的问题。

答案 3 :(得分:1)

贝叶斯分类可能可帮助您在数据中找到某些异常,具体取决于数据类型以及您对贝叶斯过滤器的训练效果。

甚至有一个可用作@ uClassify.com的网络服务。