使用ggplot2为绘图添加点

时间:2015-08-06 15:04:25

标签: r plot ggplot2

以下是我的数据集中的前9行(54个)和前8个列(1003个中)

 stream n rates     means          1         2         3         4
 1   Brooks 3   3.0 0.9629152 0.42707006 1.9353659 1.4333884 1.8566225
 2  Siouxon 3   3.0 0.5831929 0.90503736 0.2838483 0.2838483 1.0023212
 3 Speelyai 3   3.0 0.6199235 0.08554021 0.7359903 0.4841935 0.7359903
 4   Brooks 4   7.5 0.9722707 1.43338843 1.8566225 0.0000000 1.3242210
 5  Siouxon 4   7.5 0.5865031 0.50574543 0.5057454 0.2838483 0.4756304
 6 Speelyai 4   7.5 0.6118634 0.32252396 0.4343109 0.6653132 2.2294652
 7   Brooks 5  10.0 0.9637475 0.88984211 1.8566225 0.7741612 1.3242210
 8  Siouxon 5  10.0 0.5804420 0.47501800 0.7383634 0.5482181 0.6430847
 9 Speelyai 5  10.0 0.5959238 0.15079491 0.2615963 0.4738504 0.0000000

这是我使用means列中找到的值为流名称Speelyai(18)的所有行创建的简单绘图。

enter image description here

通过获取整行的平均值来计算均值列。每列代表1次模拟。因此,平均列是1000次模拟的平均值。我想在图上绘制实际的模拟值。我认为不仅可以绘制平均值(用线条),而且还可以显示" raw"数据(模拟)作为点。我看到我可以使用geom_point(),但我不确定如何获得具有流名称的任何行的所有点" Speelyai"

感谢

enter image description here

正如你所看到的,尺度差异很大,我认为这些尺度是模拟结果或重新采样原始数据的结果。但是,我怎样才能以保留视觉内容的方式在原始图像上叠加这些点?在这张图片中,线看起来几乎是平的,但在我的原始图像中,我们可以看到它波动很大,只是在一个小范围......

2 个答案:

答案 0 :(得分:1)

我建议您以长格式而不是宽格式重新格式化数据。例如:

library("tidyr")
library("ggplot2")
my_data_tidy <- gather(my_data, column, value, -c(stream, n, rates, means))
ggplot(subset(my_data_tidy, stream == "Speelyai"), aes(rates, value)) +
  geom_point() +
  stat_summary(fun.y = "mean", geom = "line")

请注意,这也会重新计算数据中的均值。如果您想使用现有的方法,可以这样做:

ggplot(subset(my_data_tidy, stream == "Speelyai"), aes(rates, value)) +
  geom_point() + geom_line(aes(rates, means), data = subset(my_data, stream == "Speelyai"))

答案 1 :(得分:1)

同意@NickKennedy认为从长到长重塑数据是一个好主意:

library(reshape)
x2<-melt(x,id=c("stream","n","rates"))
x2<-x2[which(x2$variable!="means"),] # this eliminates the entries for means

现在是时候重新计算手段了:

library(data.table)
setDT(x2)
setkey(x2,"stream")
means.sp<-x2["Speelyai",.(mean.stream=mean(value)),by=rates]

所以现在你可以绘制:

library(ggplot2)
p<-ggplot(means.sp,aes(rates,mean.stream))+geom_line()

这正是你所拥有的,所以现在让我们添加点:

p<-p+geom_point(data=x2[x2$stream=="Speelyai",],aes(rates,value))

请注意,在调用geom_point时,您需要专门声明data=,因为您使用的是与ggplot调用中指定的数据集不同的数据集。

==========编辑添加=============

回复您的评论,并从答案中借用@akrun给您here,您需要添加错误计算,然后将调用更改为geom_point

df2 <- data.frame(stream=c('Brooks', 'Siouxon', 'Speelyai'), 
      value=c(0.944062036, 0.585852702, 0.583984402), stringsAsFactors=FALSE)
x2$error <- x2$value-df2$value[match(x2$stream, df2$stream)]    

然后将通话更改为geom_point

geom_point(data=x2[x2$stream=="Speelyai",],aes(rates,error))