数据集可在此处使用,但我仅将2010年至2016年的数据集作为子集:https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/
我试图用箱线图绘制不同性别的身高,然后返回该图:
我觉得这是不正确的,因为离群值太多了(平均值= 175,最小值= 133,最大值= 221)。
我想知道是否需要调整Y轴以在此箱图中包含更多数据点?如果是这样,我该怎么办?
这是我的代码:
ggplot(data = olympics, aes(x = Sex, y = Height) +
geom_boxplot() +
labs(title= "Height Distribution of Olympics Athletes by Gender")
我还想知道是否可以使用基本R语言绘制这样的图形?谢谢!
答案 0 :(得分:0)
欢迎使用stackoverflow @VanLindert。寻求帮助的最佳方法是为我们提供可以重复运行该问题的代码。 datapasta
和reprex
软件包使此操作变得容易。 https://reprex.tidyverse.org/articles/articles/datapasta-reprex.html
我怀疑这是因为您正在重新调整y轴限制,并且箱线图不断变化。当您使用plot + scale_y_continuous(limits = c(130, 225))
或简写plot + ylim(130, 225)
时,ggplot会过滤掉130和225之上/之下的值,并重新计算四分位数。如果您只想将图放大到特定范围,可以使用
plot + coord_cartesian(ylim = c(130, 225))