应用错误收集

箱线图将中位数显示为中心线（第 50 个百分位数），然后将第 25 个和第 75 个百分位数显示为方框边界。然后使用 IQR 方法计算异常值边界（例如，上边界为 1.5 * IQR + Q3）。 Q3 是数据的第 3 个四分位数或第 75 个百分位数（75% 的数据低于此值）。离群点须之外的离群点显示为不同的点。

Boxenplots（在原始论文和 lvplot R 包中实际上称为字母值图）以不同的方式显示分布，并且更适合更大的数据集。经典箱线图可能有太多的异常值，并且不会显示太多关于分布的信息。 Boxenplots 以中位数（Q2，第 50 个百分位数）作为中心线开始。向外的每个连续级别包含剩余数据的一半。所以前两个级别的行包含 50% 的数据。在这两个和下一个级别之间，有 25% 的数据。这一直持续到我们处于异常值级别。每个级别的阴影都较浅。有 4 种计算异常值的方法（在论文中描述，在 seaborn 中可用）。默认情况下，每个尾部最终会有大约 5-8 个异常值。

我用 Diziet 的漂亮图来说明：

original paper（来自包括 Hadley Wickham 在内的作者）在 seaborn boxenplot 文档中链接。

根据我对{boxenplot”（或作者命名为“ letter-value-plot”）的the paper describing the concept的理解，目标是提供比{{1 }}（特别是当存在许多离群值时），而无需选择特定的参数，例如boxplot使用的KDE函数，如果选择不当，可能会扭曲分布的外观

这里是三种情节的比较：

箱形图与箱形图有何不同？

2 个答案: