据我了解,密度曲线下的面积应始终等于1.在R中似乎不是这样。
我的代码如下所示:
p <- ggplot() +
geom_density(data = data_plot, aes_string(x = "value", color = group_by),
position = "identity", size = 0.5, na.rm = TRUE) +
labs(x = data_plot$unit[data_plot[, group_by] == group_member[1]], y = "density") +
scale_colour_manual(values = color) +
theme_own()
plot(p)
当我将geom_density
输入更改为
geom_density(data = data_plot, aes_string(x = "Wert", color = group_by),
position = "identity", size = 0.5, na.rm = TRUE, bw = bandwidth)
我在y轴上得到不同的值。
没有手动bw:
Bw = 0.01:
Bw = 0.00001:
我是否解释错误?我确实期望y轴的范围随着带宽的增加而变大(因为许多值是67和100),但曲线不应该更低?例如,在最后一个图中,面积约为30(x轴)* 100(y轴)= 3&#39;
答案 0 :(得分:3)
概率密度曲线下的总面积应该始终为1.但是,这种限制仍然允许y轴上的密度值超过1,因为你必须乘以高度的您感兴趣的密度区域与相应区域的宽度(通常通过求解积分来完成)
例如,考虑从0到0.1的均匀分布。这里,恒定密度值为10,因为0.1 * 10 = 1。
# example: the shorter the interval between min and max, the larger the
# the density value becomes
curve(dunif(x = x, min = 0, max = 0.1), from = 0, to = 0.1)
使用代码中的带宽参数,您实际上会使感兴趣的间隔越来越小,从而导致密度值越来越高。