R中的平衡采样

时间:2014-04-23 07:12:51

标签: r sampling large-data

目前我正在使用“立方体”功能在R中进行平衡采样。它适用于适量的数据。但是,如果使用10,000,000+的整个人口,R就会挂起。有没有可以与“大数据”一起使用的替代方案?

1 个答案:

答案 0 :(得分:2)

首先,您应该重新安装软件包BalancedSampling以确保您拥有最新版本1.4。对我来说,它似乎适用于N = 10000000(选择样本需要大约30秒)

library(BalancedSampling)
N = 10000000 # population size
n = 100 # sample size
p = rep(n/N,N) # inclusion probabilities
X = cbind(p,runif(N),runif(N),runif(N)) # matrix of 3 auxiliary variables
system.time(cube(p,X))
 user  system elapsed
 31.31    0.02   31.42