Question

对于一个科学项目，我正在寻找一种方法来生成一定范围内的随机数据（例如min = 0，max = 100000）与另一个已经存在的在R 。目标是稍微丰富数据集，这样我就可以生成一些更有意义的图形（不用担心，我正在使用虚构数据）。

例如，我想使用以下数据生成与r = - .78相关的随机值：

var1 <- rnorm(100, 50, 10)

我已经遇到了一些非常好的解决方案（即https://stats.stackexchange.com/questions/15011/generate-a-random-variable-with-a-defined-correlation-to-an-existing-variable），但只得到非常小的值，我无法转换，因此在其他原始值的上下文中有意义。

以下示例：

var1 <- rnorm(100, 50, 10) n <- length(var1) rho <- -0.78 theta <- acos(rho) x1 <- var1 x2 <- rnorm(n, 50, 50) X <- cbind(x1, x2) Xctr <- scale(X, center=TRUE, scale=FALSE) Id <- diag(n) Q <- qr.Q(qr(Xctr[ , 1, drop=FALSE])) P <- tcrossprod(Q) # = Q Q' x2o <- (Id-P) %*% Xctr[ , 2] Xc2 <- cbind(Xctr[ , 1], x2o) Y <- Xc2 %*% diag(1/sqrt(colSums(Xc2^2))) var2 <- Y[ , 2] + (1 / tan(theta)) * Y[ , 1] cor(var1, var2)

我得到的var2值是介于-0.5和0.5之间的值。平均值为0.我希望有更多的分布式数据，所以我可以通过添加50来简单地对其进行转换，并且与我的第一个变量相比具有非常相似的范围。

你们中是否有人知道如何产生这种或多或少的数据？

提前多多感谢！

Answer 1

如果您对所生成值的相关性和边际分布（即形状）感到满意，请将这些值（介于（-.5，+ 5）之间乘以100,000并添加50,000。

> c(-0.5, 0.5) * 100000 + 50000
[1] 0e+00 1e+05

编辑：这种做法，或任何其他10万＆amp; 50,000个交换不同的数字，将是@ gregor-de-cillia推荐的“线性转换”的一个例子。

Answer 2

从var1开始，重命名为A，并使用10,000点：

set.seed(1)
A <- rnorm(10000,50,10)  # Mean of 50

首先将A中的值转换为具有新的所需平均值50,000并具有反比关系（即减去）：

B <- 1e5 - (A*1e3) # Note that { mean(A) * 1000 = 50,000 }

这只会产生r = -1。添加一些噪音以达到所需的r：

B <- B + rnorm(10000,0,8.15e3) # Note this noise has mean = 0
                               # the amount of noise, 8.15e3, was found through parameter-search

这有你想要的相关性：

cor(A,B)
[1] -0.7805972

查看方式：

plot(A,B)

<强>注意
您的B值可能会超出范围0 100,000。如果您使用其他种子或生成更多数字，则可能需要过滤范围之外的值。

那就是说，目前的范围很好：

range(B)
[1]  1668.733 95604.457

在R中生成随机值，并在定义的范围内

2 个答案: