下面是一些时间序列数据的直方图。我正在尝试查找数据中的异常。我想尝试的第一种基本方法是:如果数据遵循正态分布,那么任何高于或低于3个标准偏差的东西都将被视为离群值。直方图看起来并不像钟形曲线,或者我解释错了吗?我还进行了一些正态性检查,例如Shapiro-Wilk检验,D'Agostino和Pearson的检验&Anderson-Darling检验,根据这些检验,我的数据都不正常。我仍然想应用3个标准偏差概念(Z分数),并检查我是否能够识别异常。所以,我做了,下面是结果。似乎可以正确识别异常。那我不正确理解直方图吗?
答案 0 :(得分:0)
的确,如果直方图看起来像是高斯分布,那么应用3个标准偏差概念是有意义的。但是,这不是必需条件。 3标准偏差概念仅依赖于均值和标准偏差。我认为,这更多是判断问题。
在您的情况下,应用此方法会产生连贯的结果,因为您的测量值在平均值(针对主模式)的周围进行了分组。