我想知道用什么算法来确定'异常值'在Seaborn的箱线图分布中。
在他们的网站seaborn.boxplot上,他们简单地陈述:
该框显示了晶须延伸时数据集的四分位数 显示其余的分布,除了点 使用作为函数的函数的方法确定为“异常值” 四分位数范围。
我真的很想知道他们使用什么方法。我已经从数据框中创建了箱图,我似乎有很多“异常值”。
答案 0 :(得分:4)
通过测试,似乎seaborn使用whis=1.5
作为默认值。
whis
被定义为
IQR超过低和高四分位数以扩大情节的比例 晶须。
对于正态分布,interquartile range包含50%的人口,1.5 * IQR包含约99%。
答案 1 :(得分:3)
如果您在链接的页面上进一步阅读(或ctrl-f代表“异常值”),您会看到:
whis : float, optional
Proportion of the IQR past the low and high quartiles to extend the plot whiskers.
Points outside this range will be identified as outliers.
答案 2 :(得分:1)
您可以这样计算:
Q1 = df.quartile(0.25)
Q3 = df.quartile(0.75)
IQR = Q3 - Q1
如果小于,则为异常值:
Q1 - 1.5 * IQR
或大于:
Q3 + 1.5 * IQR