我们的webapp收集有关用户操作,网络业务,数据库负载等的大量数据等
所有数据都存储在仓库中,我们对这些数据有很多有趣的看法。
如果发生奇怪的事情,它会出现在数据的某个地方。
但是,要手动检测是否有异常情况发生,必须不断查看这些数据,并寻找奇怪的内容。
我的问题:检测动态数据变化的最佳方法是什么,可以看作是“与众不同”。
Bayesan过滤器(我在阅读有关垃圾邮件检测时已经看到过这些过滤器)了吗?
任何指针都会很棒!
编辑: 以澄清数据为例,显示了数据库负载的每日曲线。 该曲线通常类似于昨天的曲线 随着时间的推移,这条曲线可能会缓慢变化。
如果日常变化的曲线在某些周界内表示会发出警告,那将是很好的。
[R
答案 0 :(得分:5)
看一下Control Charts,它们提供了一种直观地跟踪数据变化的方法,并指明数据何时“失控”或“异常”。它们大量用于制造以确保质量控制。
答案 1 :(得分:4)
如果不了解有关您所拥有的特定数据的更多信息,则无法回答这个问题。有关存在何种方法的概述,请参阅Chandola,Banerjee和Kumar的Anomaly Detection: A Survey。
答案 2 :(得分:1)
这在很大程度上取决于数据。参加统计课程并首先学习基础知识。这通常不是一个简单或简单的问题。
答案 3 :(得分:1)
贝叶斯分类可能可帮助您在数据中找到某些异常,具体取决于数据类型以及您对贝叶斯过滤器的训练效果。
甚至有一个可用作@ uClassify.com的网络服务。