Y轴在R中的geom_density中随带宽而变化

时间:2018-01-25 12:17:20

标签: r ggplot2 density-plot

据我了解,密度曲线下的面积应始终等于1.在R中似乎不是这样。

我的代码如下所示:

p <- ggplot() +
  geom_density(data = data_plot, aes_string(x = "value", color = group_by),
               position = "identity", size = 0.5, na.rm = TRUE) +
  labs(x = data_plot$unit[data_plot[, group_by] == group_member[1]], y = "density") +
  scale_colour_manual(values = color) +
        theme_own()
plot(p) 

当我将geom_density输入更改为

geom_density(data = data_plot, aes_string(x = "Wert", color = group_by),
               position = "identity", size = 0.5, na.rm = TRUE, bw = bandwidth)

我在y轴上得到不同的值。

没有手动bw:

No manual bw

Bw = 0.01:

Bw = 0.01

Bw = 0.00001:

Bw = 0.00001

我是否解释错误?我确实期望y轴的范围随着带宽的增加而变大(因为许多值是67和100),但曲线不应该更低?例如,在最后一个图中,面积约为30(x轴)* 100(y轴)= 3&#39;

1 个答案:

答案 0 :(得分:3)

概率密度曲线下的总面积应该始终为1.但是,这种限制仍然允许y轴上的密度值超过1,因为你必须乘以高度的您感兴趣的密度区域与相应区域的宽度(通常通过求解积分来完成)

例如,考虑从0到0.1的均匀分布。这里,恒定密度值为10,因为0.1 * 10 = 1。

# example: the shorter the interval between min and max, the larger the 
# the density value becomes
  curve(dunif(x = x, min = 0, max = 0.1), from = 0, to = 0.1)

PDF of uniform distribution from 0 to 1

使用代码中的带宽参数,您实际上会使感兴趣的间隔越来越小,从而导致密度值越来越高。