Question

我对我的数据density进行了密度估算（使用learningTime函数）（见下图），我需要找到概率Pr(learningTime > c)，即密度下的面积从给定数字c（红色垂直线）到曲线末端的曲线。有什么想法吗？

Answer 1

密度估算曲线下的计算区域并不困难。这是一个可重复的例子。

假设我们有一些观察到的数据x，为简单起见，它们是正态分布的：

set.seed(0)
x <- rnorm(1000)

我们执行密度估算（通过一些自定义，请参阅?density）：

d <- density.default(x, n = 512, cut = 3)
str(d)
#    List of 7
# $ x        : num [1:512] -3.91 -3.9 -3.88 -3.87 -3.85 ...
# $ y        : num [1:512] 2.23e-05 2.74e-05 3.35e-05 4.07e-05 4.93e-05 ...
# ... truncated ...

我们想要计算x = 1右侧曲线下面积：

plot(d); abline(v = 1, col = 2)

数学上，这是[1, Inf]上估计密度曲线的数值积分。

估算的密度曲线以d$x和d$y：

的离散格式存储

xx <- d$x  ## 512 evenly spaced points on [min(x) - 3 * d$bw, max(x) + 3 * d$bw]
dx <- xx[2L] - xx[1L]  ## spacing / bin size
yy <- d$y  ## 512 density values for `xx`

数值积分有两种方法。

方法1：Riemann Sum

估计密度曲线下面积为：

C <- sum(yy) * dx  ## sum(yy * dx)
# [1] 1.000976

由于 Riemann Sum 只是一个近似值，因此它略微偏离1（总概率）。我们将此C值称为“规范化常量”。

[1, Inf]上的数值积分可以近似为

p.unscaled <- sum(yy[xx >= 1]) * dx
# [1] 0.1691366

应该进一步按C进行缩放以获得适当的概率估计：

p.scaled <- p.unscaled / C
# [1] 0.1689718

由于模拟x的真密度已知，我们可以将此估算值与真实值进行比较：

pnorm(x0, lower.tail = FALSE)
# [1] 0.1586553

非常接近。

方法2：trapezoidal rule

我们对(xx, yy)进行线性插值，并在此线性插值上应用数值积分。

f <- approxfun(xx, yy)
C <- integrate(f, min(xx), max(xx))$value
p.unscaled <- integrate(f, 1, max(xx))$value
p.scaled <- p.unscaled / C
#[1] 0.1687369

关于Robin's answer

答案是合法的，但可能是作弊。 OP的问题始于密度估计，但答案完全绕过了它。如果允许，为什么不简单地执行以下操作？

set.seed(0)
x <- rnorm(1000)
mean(x > 1)
#[1] 0.163

Answer 2

基数R中的经验累积分布函数ecdf()非常容易。以李哲远的例子为例...

#Reproducible sample data 
set.seed(0)
x <- rnorm(1000)

#Create empirical cumulative distribution function from sample data
d_fun <- ecdf (x)

#Assume a value for the "red vertical line"
x0 <- 1

#Area under curve less than, equal to x0
d_fun(x0) 
# [1] 0.837

#Area under curve greater than x0
1 - d_fun(x0)
# [1] 0.163

密度估计曲线下的计算面积，即概率

2 个答案: