ggplot boxplot:异常值太多?

时间:2019-05-10 08:43:40

标签: r ggplot2

数据集可在此处使用,但我仅将2010年至2016年的数据集作为子集:https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/

我试图用箱线图绘制不同性别的身高,然后返回该图:

enter image description here
我觉得这是不正确的,因为离群值太多了(平均值= 175,最小值= 133,最大值= 221)。 我想知道是否需要调整Y轴以在此箱图中包含更多数据点?如果是这样,我该怎么办?

这是我的代码:

ggplot(data = olympics, aes(x = Sex, y = Height) +
 geom_boxplot() +
 labs(title= "Height Distribution of Olympics Athletes by Gender")

我还想知道是否可以使用基本R语言绘制这样的图形?谢谢!

1 个答案:

答案 0 :(得分:0)

欢迎使用stackoverflow @VanLindert。寻求帮助的最佳方法是为我们提供可以重复运行该问题的代码。 datapastareprex软件包使此操作变得容易。 https://reprex.tidyverse.org/articles/articles/datapasta-reprex.html

我怀疑这是因为您正在重新调整y轴限制,并且箱线图不断变化。当您使用plot + scale_y_continuous(limits = c(130, 225))或简写plot + ylim(130, 225)时,ggplot会过滤掉130和225之上/之下的值,并重新计算四分位数。如果您只想将图放大到特定范围,可以使用

plot + coord_cartesian(ylim = c(130, 225))