Boxplot与平均点

时间:2013-09-24 20:47:59

标签: r ggplot2

我正在制作一个带有ggplot2的箱线图并尝试(没有任何成功)将每个变量的平均点放在上面。有人能指出什么是错的吗?

可重现的例子:

data <- data.frame(id=1:5000, Estimativa0=gl(5, 1000), NM.Intra1=rnorm(5000, rep(rnorm(5, 0, 4), each=1000)), NM.Entre2=rnorm(5000, rep(rnorm(5, 0, 4), each=1000)), SPADE3=rnorm(5000, rep(rnorm(5, 0, 4), each=1000)),  NCI4=rnorm(5000, rep(rnorm(5, 0, 4), each=1000)))
data <- reshape(data, direction='long', varying=list(c("NM.Intra1", "NM.Entre2", "SPADE3", "NCI4")), idvar=c('id', 'Estimativa0'), times=c("NM.Intra1", "NM.Entre2", "SPADE3", "NCI4"), timevar='Método')
levels(data$Estimativa0) <- c('Est 1', 'Est 2', 'Est 3', 'Est 4', 'Est 5', 'Est 6')
p <- ggplot(data, aes(Método, NM.Intra1))
p <- p + geom_boxplot(aes(fill=factor(Estimativa0))) + ylab('Vício') + xlab('Método') + scale_fill_discrete("Estatística") + ggtitle('Gráfico maluco da Greice') + geom_hline(yintercept=0)
p

第一次尝试是:

medias <- with(data, aggregate(data.frame(Media=NM.Intra1), by=list(Estimativa0=Estimativa0, Método=Método), FUN=mean))
p + geom_point(aes(x=Método, y=Media), data=medias, shape=2)

但它在同一“垂直线”中绘制了所有点。我尝试了解决方案指向here,但也失败了:

p + stat_summary(fun.y=mean, colour="red", geom="point", position=position_dodge(width=0.75), shape=2)

那么,我错过了什么?

1 个答案:

答案 0 :(得分:4)

我假设你想要每个Método - Estimativa0组合的平均值。在这种情况下,您需要告诉stat_summaryEstimativa0进行分组;目前,映射仅在geom_boxplot中完成,因此不会由stat_summary继承。

所以,删除它:

aes(fill=factor(Estimativa0))

并将fill=factor(Estimativa0)放在初始映射中:

aes(Método, NM.Intra1, fill=factor(Estimativa0))

你最终会得到这个:

p <- ggplot(data, aes(Método, NM.Intra1, fill=factor(Estimativa0)))
p <- p + geom_boxplot() + ylab('Vício') + xlab('Método') + scale_fill_discrete("Estatística") + ggtitle('Gráfico maluco da Greice') + geom_hline(yintercept=0)
p + stat_summary(fun.y=mean, colour="red", geom="point", position=position_dodge(width=0.75), shape=2)

产生这个:

enter image description here