在R中生成随机值,并在定义的范围内

时间:2017-07-03 14:14:30

标签: r random correlation generated

对于一个科学项目,我正在寻找一种方法来生成一定范围内的随机数据(例如min = 0,max = 100000)与另一个已经存在的在R 。目标是稍微丰富数据集,这样我就可以生成一些更有意义的图形(不用担心,我正在使用虚构数据)。

例如,我想使用以下数据生成与r = - .78相关的随机值:

var1 <- rnorm(100, 50, 10)

我已经遇到了一些非常好的解决方案(即https://stats.stackexchange.com/questions/15011/generate-a-random-variable-with-a-defined-correlation-to-an-existing-variable),但只得到非常小的值,我无法转换,因此在其他原始值的上下文中有意义。

以下示例:

var1 <- rnorm(100, 50, 10)
n     <- length(var1)                   
rho   <- -0.78                   
theta <- acos(rho)             
x1    <- var1      
x2    <- rnorm(n, 50, 50)      
X     <- cbind(x1, x2)         
Xctr  <- scale(X, center=TRUE, scale=FALSE)   

Id   <- diag(n)                               
Q    <- qr.Q(qr(Xctr[ , 1, drop=FALSE]))       
P    <- tcrossprod(Q)          # = Q Q'       
x2o  <- (Id-P) %*% Xctr[ , 2]                 
Xc2  <- cbind(Xctr[ , 1], x2o)                
Y    <- Xc2 %*% diag(1/sqrt(colSums(Xc2^2)))  
var2 <- Y[ , 2] + (1 / tan(theta)) * Y[ , 1]    
cor(var1, var2)  

我得到的var2值是介于-0.5和0.5之间的值。平均值为0.我希望有更多的分布式数据,所以我可以通过添加50来简单地对其进行转换,并且与我的第一个变量相比具有非常相似的范围。

你们中是否有人知道如何产生这种或多或少的数据?

提前多多感谢!

2 个答案:

答案 0 :(得分:0)

如果您对所生成值的相关性和边际分布(即形状)感到满意,请将这些值(介于(-.5,+ 5)之间乘以100,000并添加50,000。

> c(-0.5, 0.5) * 100000 + 50000
[1] 0e+00 1e+05

编辑:这种做法,或任何其他10万&amp; 50,000个交换不同的数字,将是@ gregor-de-cillia推荐的“线性转换”的一个例子。

答案 1 :(得分:0)

var1开始,重命名为A,并使用10,000点:

set.seed(1)
A <- rnorm(10000,50,10)  # Mean of 50

首先将A中的值转换为具有新的所需平均值50,000并具有反比关系(即减去):

B <- 1e5 - (A*1e3) # Note that { mean(A) * 1000 = 50,000 }

这只会产生r = -1。添加一些噪音以达到所需的r

B <- B + rnorm(10000,0,8.15e3) # Note this noise has mean = 0
                               # the amount of noise, 8.15e3, was found through parameter-search

这有你想要的相关性:

cor(A,B)
[1] -0.7805972

查看方式:

plot(A,B)

<强>注意
您的B值可能会超出范围0 100,000。如果您使用其他种子或生成更多数字,则可能需要过滤范围之外的值。

那就是说,目前的范围很好:

range(B)
[1]  1668.733 95604.457