Python Seaborn - 如何在箱图中确定异常值

时间:2017-04-06 19:24:06

标签: python seaborn

我想知道用什么算法来确定'异常值'在Seaborn的箱线图分布中。

在他们的网站seaborn.boxplot上,他们简单地陈述:

  

该框显示了晶须延伸时数据集的四分位数   显示其余的分布,除了点   使用作为函数的函数的方法确定为“异常值”   四分位数范围。

我真的很想知道他们使用什么方法。我已经从数据框中创建了箱图,我似乎有很多“异常值”。

boxplots of my dataframe 感谢

3 个答案:

答案 0 :(得分:4)

通过测试,似乎seaborn使用whis=1.5作为默认值。

whis被定义为

  

IQR超过低和高四分位数以扩大情节的比例   晶须。

对于正态分布,interquartile range包含50%的人口,1.5 * IQR包含约99%。

答案 1 :(得分:3)

如果您在链接的页面上进一步阅读(或ctrl-f代表“异常值”),您会看到:

whis : float, optional
    Proportion of the IQR past the low and high quartiles to extend the plot whiskers.
    Points outside this range will be identified as outliers.

答案 2 :(得分:1)

您可以这样计算:

Q1 = df.quartile(0.25)
Q3 = df.quartile(0.75)
    
IQR = Q3 - Q1

如果小于,则为异常值:

Q1 - 1.5 * IQR

或大于:

Q3 + 1.5 * IQR