不同的分位数:Boxplot vs. Violinplot

时间:2016-03-16 10:43:30

标签: r ggplot2 boxplot quantile violin-plot

require(ggplot2)
require(cowplot)
d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
    geom_violin(fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
                , colour = "red", size = 1.5) +
    stat_boxplot(geom ='errorbar', width = 0.1)+
    geom_boxplot(width = 0.2)+
    facet_grid(. ~ Species, scales = "free_x") +
    xlab("") + 
    ylab (expression(paste("Value"))) +
    coord_cartesian(ylim = c(3.5,9.5)) + 
    scale_y_continuous(breaks = seq(4, 9, 1)) + 
    theme(axis.text.x=element_blank(),
          axis.text.y = element_text(size = rel(1.5)),
          axis.ticks.x = element_blank(),
          strip.background=element_rect(fill="black"),
          strip.text=element_text(color="white", face="bold"),
          legend.position = "none") +
    background_grid(major = "xy", minor = "none") 

boxplot vs. violinplot

据我所知,箱形图中的方框结尾分别代表25%和75%的分位数,中位数= 50%。因此它们应该等于geom_violin参数中由draw_quantiles = c(0.25, 0.5, 0.75)绘制的0.25 / 0.5 / 0.75分位数。

中位数和50%分位数拟合。然而,0.25和0.75分位数都不适合箱线图的盒子末端(见图,特别是'virginica'facet)。

参考文献:

  1. http://docs.ggplot2.org/current/geom_violin.html

  2. http://docs.ggplot2.org/current/geom_boxplot.html

2 个答案:

答案 0 :(得分:6)

这对于评论来说太长了,所以我将其作为答案发布。我看到两个潜在的分歧来源。首先,我的理解是boxplot引用boxplot.stats,它使用hinges非常相似但不一定与分位数相同。 ?boxplot.stats说:

  

两个'铰链'是第一和第三四分位数的版本,即   接近分位数(x,c(1,3)/ 4)。铰链等于奇数的四分位数   n(其中n < - 长度(x))并且即使n也不同。而四分位数   对于n %% 4 == 1(n = 1 mod 4),只有相等的观察,铰链   另外对于n %% 4 == 2(n = 2 mod 4),并且在中间   否则就有两个观察结果。

因此hinge vs quantile区别可能是差异的一个来源。

其次,geom_violin指的是密度估计。源代码here指向函数StatYdensity,这会将我引导至here。我找不到函数compute_density,但我认为(也是由于帮助文件中的一些指针)它基本上是density,默认情况下使用高斯核估计来估计密度。这可能(或可能不)解释差异,但

by(d$Sepal.Length, d$Species, function(x) boxplot.stats(x, coef=5)$stats )
by(d$Sepal.Length, d$Species, function(v) quantile(density(v)$x))

确实显示出不同的价值观。因此,我猜测差异是由于我们是基于观察的经验分布函数还是基于核密度估计来看分位数,尽管我承认我没有最终证明这一点。

答案 1 :(得分:0)

第二个因素that @coffeinjunky raised似乎是主要原因。这里有更多证据可以证明这一点。

通过切换到geom_ydensity,可以凭经验确定差异是由于geom_violin使用内核密度估计来计算分位数而不是实际观察值。例如,如果我们强制使用较宽的带宽(bw=1),则估计的密度将被过度平滑,并且将进一步偏离盒图中使用的基于观测的分位数:

require(ggplot2)
require(cowplot)

theme_set(cowplot::theme_cowplot())

d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
  stat_ydensity(bw=1, fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
              , colour = "red", size = 1.5) +
  stat_boxplot(geom ='errorbar', width = 0.1)+
  geom_boxplot(width = 0.2)+
  facet_grid(. ~ Species, scales = "free_x") +
  xlab("") + 
  ylab (expression(paste("Value"))) +
  coord_cartesian(ylim = c(3.5,9.5)) + 
  scale_y_continuous(breaks = seq(4, 9, 1)) + 
  theme(axis.text.x=element_blank(),
        axis.text.y = element_text(size = rel(1.5)),
        axis.ticks.x = element_blank(),
        strip.background=element_rect(fill="black"),
        strip.text=element_text(color="white", face="bold"),
        legend.position = "none") +
  background_grid(major = "xy", minor = "none") 

enter image description here

所以,是的,请谨慎操作-密度估计的参数会影响结果!