geom_errorbar行为奇怪,ggplot2

时间:2015-08-05 21:02:19

标签: r ggplot2 confidence-interval standard-error

在ggplot2中使用geom_errorbar时,我遇到了一个常见的问题。

误差线不在范围内,但这里无关紧要。

我的问题是geom_errorbar正在绘制相同数据不同的置信区间,具体取决于使用它绘制的其他数据。

以下代码仅过滤数据,其中Audio1在未注释的SE和AggBar中等于“300SW”或“3500MFL”。

SE<-c(0.0861829641865964, 0.0296894376485468, 0.0323219002250762, 
  0.0937013798013447)

AggBar <- structure(list(Report = structure(c(1L, 2L, 1L, 2L, 1L, 2L, 1L, 
                                          2L), .Label = c("One Flash", "Two Flashes"), class = "factor"), 
                     Visual = structure(c(1L, 1L, 2L, 2L, 1L, 1L, 2L, 2L), .Label = c("one", 
                                                                                      "two"), class = "factor"), Audio = c("300SW", "300SW", "300SW", 
                                                                                                                           "300SW", "3500MFL3500CL", "3500MFL3500CL", "3500MFL3500CL", 
                                                                                                                           "3500MFL3500CL"), Prob = c(0.938828282828283, 0.0611717171717172, 
                                                                                                                                                      0.754141414141414, 0.245858585858586, 0.534484848484848, 
                                                                                                                                                      0.465515151515151, 0.0830909090909091, 0.916909090909091)), .Names = c("Report",
                                                                                                                                                                                                                             "Visual", "Audio", "Prob"), row.names = c(NA, -8L), class = "data.frame")



  #SE<-c(0.0310069159026252, 0.113219880555153, 0.0861829641865964, 0.0296894376485468)

  #AggBar <- structure(list(Report = structure(c(1L, 2L, 1L, 2L, 1L, 2L, 1L, 
                                #2L), .Label = c("One Flash", "Two Flashes"), class = "factor"), 
           #Visual = structure(c(1L, 1L, 2L, 2L, 1L, 1L, 2L, 2L), .Label = c("one", 
                                                                            #"two"), class = "factor"), Audio = c("300MFL300CL", "300MFL300CL", 
                                                                                                                 #"300MFL300CL", "300MFL300CL", "300SW", "300SW", "300SW", 
                                                                                                                 #"300SW"), Prob = c(0.562242424242424, 0.437757575757576, 
                                                                                                                                    #0.0921010101010101, 0.90789898989899, 0.938828282828283, 
                                                                                                                                    #0.0611717171717172, 0.754141414141414, 0.245858585858586)), .Names = c("Report", 
                                                                                                                                                                                                           #"Visual", "Audio", "Prob"), row.names = c(NA, -8L), class = "data.frame")






prob.bar = ggplot(AggBar, aes(x = Report, y = Prob, fill = Report)) + theme_bw() #+ facet_grid(Audio~Visual)
prob.bar + #This changes all panels' colour
geom_bar(position=position_dodge(.9), stat="identity", colour="black", width=0.8)+
theme(legend.position = "none") + labs(x="Report", y="Probability of Report", title = expression("Visual Condition")) + scale_fill_grey() +
scale_fill_grey(start=.4) + 
scale_y_continuous(limits = c(0, 1), breaks = (seq(0,1,by = .25)))+
facet_grid(Audio ~ Visual)+
geom_errorbar(aes(ymin=Prob-SE, ymax=Prob+SE),
          width=.1, # Width of the error bars
          position=position_dodge(.09))

这导致以下输出:

Output when filter by Audio1 = "300SW" OR "3500MFL"

Audio1变量显示在最右边的垂直标签上。

但是,如果我过滤它只通过Audio1等于“300SW”或“300MFL”(注释的SE和AggBar)的位置,则“300SW更改”的错误栏:

enter image description here

Audio1变量显示在最右边的垂直标签上,底部显示“300SW”。

此更改不正确,因为当我仅绘制Audio1“300SW”时,错误条与原始图形匹配。

我已经尝试使用此处未显示的其他变量绘制Audio1“300SW”,并且在使用“300MFL”显示此更改时

如果查看SE变量内容,您会发现两个版本的代码中“300SW”的值没有变化。但产出不同。

我无法理解这里发生的事情。欢迎任何想法或建议。

非常感谢你的时间。

下面的@Antonios K强调,当“300SW”位于网格顶部时,会正确绘制误差线。我猜测错误条与条形图不匹配,虽然我不知道为什么会这样。

2 个答案:

答案 0 :(得分:3)

问题是SE没有存储在数据框内:它只是在全局环境中浮动。当数据被分割(包括重新排列订单)时,它不再与正确的记录对齐。通过在数据框中存储SE来解决问题:

AggBar$SE <- c(0.0310069159026252, 0.113219880555153, 0.0861829641865964, 0.0296894376485468)

ggplot(AggBar, aes(Report, Prob, Report)) +
  geom_bar(stat = "identity", fill = "grey50") +
  geom_errorbar(aes(ymin = Prob - SE, ymax = Prob + SE), width = 0.4) + 
  facet_grid(Audio ~ Visual)

答案 1 :(得分:1)

绘制误差线的代码位是:

geom_errorbar(aes(ymin=Prob-SE, ymax=Prob+SE), width=.1, # Width of the error bars position=position_dodge(.09))

所以,我猜它就是那里的东西。 正如你所说,SE变量在两种情况下是相同的,但你在那里绘制的是Prob-SE和Prob + SE。如果您使用AggBar $ Prob-SE和AggBar $ Prob + SE,您将获得每种情况300SW的不同值。

可能与您的Audio1值的顺序有关。其他有效的案例也可能在地块的顶部有300SW吗?

尝试

sort(unique(DataRearrange$Audio1) )

[1] "300MFL"  "300SW"   "3500MFL"

组合前两个将在图的底部给出300SW。 结合最后两个将在顶部给你300SW。

所以,要检查这个假设,在第二种情况下,当你将300MFL和300SW组合时,尝试用1_300SW替换300SW(这样300SW将被绘制在顶部),看看会发生什么。只是做:

    DataRearrange$Audio1[DataRearrange$Audio1=="300SW"] = "1_300SW"

# Below is the alternative coupling..

ErrorBarsDF <- DataRearrange[(DataRearrange$Audio1=="1_300SW" | DataRearrange$Audio1=="300MFL"), c("correct","Visual1", "Audio1", "Audio2","correct_response", "response", "subject_nr")]
DataRearrange <- DataRearrange[(DataRearrange$Audio1=="1_300SW" | DataRearrange$Audio1=="300MFL"), c("correct","Visual1", "Audio1", "Audio2","correct_response", "response", "subject_nr")]