异常值是否用于计算ggplot2的箱形图中的分位数?

时间:2019-11-08 07:59:41

标签: r ggplot2

如标题中所述。我浏览了几篇文章,但是它们在这个主题上确实很模糊。在箱形图(Q1,Q2,Q3)中创建分位数时使用的所有值,还是仅在“数据范围”中使用的值(即,距Q1四分位间距的1.5倍以内的值)或Q3)

我正在使用ggplot2软件包创建我的箱线图。我写道:

fulldata %>%
  filter(status=="påbörjat studier") %>%
  ggplot(aes(x=fct_reorder(urvalsgrupp, PERC_CREDIT, .fun = median), y=PERC_CREDIT)) +
  geom_boxplot() +
  coord_flip()

我得到: enter image description here

现在您可以看到HP组中有两个异常值。在计算分位数时是使用了这些离群值,还是应该将框/分位数(如果考虑了这些值)放在左边?

1 个答案:

答案 0 :(得分:1)

我在文档中找不到直接的答案,但是我们可以凭经验进行研究。首先,我们创建由与上述dplyr链相同的方式过滤的HP组组成的数据子集:

dftest<-fulldata%>%filter(urvalsgrupp=="HP" & status=="påbörjat studier")

然后我们可以手动计算分位数:

quantile(dftest$PERC_CREDIT,probs=c(0.25,0.50,0.75))

输出:

25%       50%       75% 
0.4277778 0.6000000 0.6500000 

这似乎大致相当于我们HP组的第一个箱线图中的值。虽然我们不能得出任何确定的结论(我们可以有几个观察结果完全相同的PERC_CREDIT),但结果指向所有用于计算分位数的值,甚至是离群值。