我想知道为什么在海底图书馆有箱形图时会有箱形图。
我知道箱形图优化的方式来表示数据(尤其是针对大型数据集)的一件事,但我不知道为什么,除此之外,我没有充分的理由使用箱形图。
答案 0 :(得分:7)
箱线图将中位数显示为中心线(第 50 个百分位数),然后将第 25 个和第 75 个百分位数显示为方框边界。然后使用 IQR 方法计算异常值边界(例如,上边界为 1.5 * IQR + Q3)。 Q3 是数据的第 3 个四分位数或第 75 个百分位数(75% 的数据低于此值)。离群点须之外的离群点显示为不同的点。
Boxenplots(在原始论文和 lvplot R 包中实际上称为字母值图)以不同的方式显示分布,并且更适合更大的数据集。经典箱线图可能有太多的异常值,并且不会显示太多关于分布的信息。 Boxenplots 以中位数(Q2,第 50 个百分位数)作为中心线开始。向外的每个连续级别包含剩余数据的一半。所以前两个级别的行包含 50% 的数据。在这两个和下一个级别之间,有 25% 的数据。这一直持续到我们处于异常值级别。每个级别的阴影都较浅。有 4 种计算异常值的方法(在论文中描述,在 seaborn 中可用)。默认情况下,每个尾部最终会有大约 5-8 个异常值。
我用 Diziet 的漂亮图来说明:
original paper(来自包括 Hadley Wickham 在内的作者)在 seaborn boxenplot 文档中链接。
答案 1 :(得分:1)
根据我对{boxenplot”(或作者命名为“ letter-value-plot”)的the paper describing the concept的理解,目标是提供比{{1 }}(特别是当存在许多离群值时),而无需选择特定的参数,例如boxplot
使用的KDE函数,如果选择不当,可能会扭曲分布的外观>