什么时候使用归一化的最小最大缩放比例,什么时候使用将z得分用于数据预处理的标准化?
我知道规范化将特征范围降低到0到1,z评分降低到-3到3,但是不确定何时使用这两种技术之一来检测数据中的异常值?
答案 0 :(得分:1)
让我们简短地同意以下条款:
z-score告诉我们样本的给定元素远离平均值有多少标准偏差。
min-max scaling是重新调整间隔[0,1]的测量范围的方法。
根据这些定义,如果您的数据遵循长尾分布,则z分数通常跨度比[-3,3]大得多。另一方面,简单的归一化确实确实限制了可能结果的范围,但由于它会限制数据,因此无法帮助您找到异常值。
离群检测所需的阈值是高于或低于该阈值,您认为数据点是离群值。许多编程语言都提供Violin plots或Box plots,可以很好地显示您的数据分布。绘图后的方法实现了阈值的常见选择:
[箱形图的]框和晶须绘制四分位数,并且框内的带始终是第二个四分位数(中位数)。但是晶须的末端可以代表几个可能的替代值,其中包括:
- 所有数据的最小值和最大值[...]
- 数据平均值上下两个标准差
- 第9个百分点和第91个百分点
- 第二个百分点和第98个百分点。
将箱形图的晶须外的所有数据点都绘制为点并视为离群值。