用于检测异常值的归一化还是标准化?

时间:2019-09-03 15:00:12

标签: statistics normalization

什么时候使用归一化的最小最大缩放比例,什么时候使用将z得分用于数据预处理的标准化?

我知道规范化将特征范围降低到0到1,z评分降低到-3到3,但是不确定何时使用这两种技术之一来检测数据中的异常值?

1 个答案:

答案 0 :(得分:1)

让我们简短地同意以下条款:

  • z-score告诉我们样本的给定元素远离平均值有多少标准偏差。

  • min-max scaling是重新调整间隔[0,1]的测量范围的方法。

根据这些定义,如果您的数据遵循长尾分布,则z分数通常跨度比[-3,3]大得多。另一方面,简单的归一化确实确实限制了可能结果的范围,但由于它会限制数据,因此无法帮助您找到异常值

离群检测所需的阈值是高于或低于该阈值,您认为数据点是离群值。许多编程语言都提供Violin plotsBox plots,可以很好地显示您的数据分布。绘图后的方法实现了阈值的常见选择:

  

[箱形图的]框和晶须绘制四分位数,并且框内的带始终是第二个四分位数(中位数)。但是晶须的末端可以代表几个可能的替代值,其中包括:

     
      
  • 所有数据的最小值和最大值[...]
  •   
  • 数据平均值上下两个标准差
  •   
  • 第9个百分点和第91个百分点
  •   
  • 第二个百分点和第98个百分点。
  •   

将箱形图的晶须外的所有数据点都绘制为点并视为离群值。