如标题中所述。我浏览了几篇文章,但是它们在这个主题上确实很模糊。在箱形图(Q1,Q2,Q3)中创建分位数时使用的所有值,还是仅在“数据范围”中使用的值(即,距Q1四分位间距的1.5倍以内的值)或Q3)
我正在使用ggplot2软件包创建我的箱线图。我写道:
fulldata %>%
filter(status=="påbörjat studier") %>%
ggplot(aes(x=fct_reorder(urvalsgrupp, PERC_CREDIT, .fun = median), y=PERC_CREDIT)) +
geom_boxplot() +
coord_flip()
现在您可以看到HP组中有两个异常值。在计算分位数时是使用了这些离群值,还是应该将框/分位数(如果考虑了这些值)放在左边?
答案 0 :(得分:1)
我在文档中找不到直接的答案,但是我们可以凭经验进行研究。首先,我们创建由与上述dplyr链相同的方式过滤的HP组组成的数据子集:
dftest<-fulldata%>%filter(urvalsgrupp=="HP" & status=="påbörjat studier")
然后我们可以手动计算分位数:
quantile(dftest$PERC_CREDIT,probs=c(0.25,0.50,0.75))
输出:
25% 50% 75%
0.4277778 0.6000000 0.6500000
这似乎大致相当于我们HP组的第一个箱线图中的值。虽然我们不能得出任何确定的结论(我们可以有几个观察结果完全相同的PERC_CREDIT),但结果指向所有用于计算分位数的值,甚至是离群值。