点数是否超出方框图的晶须异常值?

时间:2018-07-31 21:39:39

标签: python pandas machine-learning statistics outliers

我正在处理Titanic数据集,发现绘制箱线图后,存在大量离群值(晶须上方的点)。 但是,在检查了Kaggle上提供的答案之后,我注意到人们并不认为这些点是异常值。

所以,我在想。是否总是总是指向Q1-1.5 * IQR以下或高于Q3 + 1.5 * IQR离群值? 如果不是,何时将其视为离群值,何时不将其视为离群值?

这是a link of one of the answers

此外,除了丢弃行之外,处理异常值的最佳方法是什么?

谢谢!

1 个答案:

答案 0 :(得分:1)

术语“异常值”并不直接表示“无效数据点”。取而代之的是,这意味着数据点只是在显示与批量分布相对较远的值。此外,您所说的“异常值”通常是主观的且是特定于问题的,因此对于“异常值”没有绝对的标准(即1.5 * IQR仅用于箱形图可视化目的)。如果我简化现实的话,大约有3种情况。

  1. 异常值明显处于该实例性质的理论/实践限制之内(例如,体温为38.0C,其他人处于35.8-36.5C范围内),这可能是发生某些变化的有力线索上(因此对建模/预测很有用)。

  2. 异常值明显超出了理论/实践极限(例如500岁以下的人),应将其视为“空”值

  3. 离群值是否在理论/实践极限的内部/外部是未知的,因此需要领域专家的知识(在这种情况下,我们与特定领域的技术专家,例如物理学家解决物理问题进行讨论)< / p>

因此,没有基于箱形图的定义来处理“异常值”的通用方法,但是您应该了解数据集的性质并决定如何正确处理它。