seaborn小提琴的内部箱形图不准确

时间:2017-04-12 11:43:58

标签: matplotlib seaborn boxplot violin-plot

在生成seaborn小提琴图时,我得到的内部箱图(通过内部='框'的说明)对我的实际数据不准确。见下面的示例图。实际数据延伸到细尾的尖端。但是箱形图在小提琴区内很好地结束了。

假设这些箱图应该代表四分位数,而不是标准偏差或其他东西,那么它们就是不准确的。

我的代码调用seaborn violinplot如下。正如你所看到的,我设置了cut = 0选项,这意味着小提琴曲线的尾部根本不会超出我的极端数据,实际上,从检查中我可以看出小提琴的范围是在正确的地方。但我也可以从检查中看到内部的箱形图甚至不是接近正确的。

sns.violinplot(x ='政策',y =' LMP',order = cat_order,data = df,inner =' box',scale = ' area',bw = 0.2,cut = 0,linewidth = 0.5,ax = axes)

有没有人对seaborn在这里有什么了解?他们决定(仅用于箱线图的目的)我的一些数据是异常值,并将它们排除在外吗?关于如何控制它的任何想法?

enter image description here

1 个答案:

答案 0 :(得分:0)

好的,我找到了自己问题的答案。虽然我习惯于基于严格四分位数的箱形图,但Seaborn使用另一种(显然是常见的)方法,其箱形图上的方框的尖端仅延伸到四分之一范围内的四分之一"或IQR。

有关信息,请参阅此处Seaborn boxplots: http://seaborn.pydata.org/tutorial/categorical.html#distributions-of-observations-within-categories

在这里查看IQR的定义: http://stattrek.com/statistics/dictionary.aspx?definition=Interquartile%20range