目前我正在使用“立方体”功能在R中进行平衡采样。它适用于适量的数据。但是,如果使用10,000,000+的整个人口,R就会挂起。有没有可以与“大数据”一起使用的替代方案?
答案 0 :(得分:2)
首先,您应该重新安装软件包BalancedSampling
以确保您拥有最新版本1.4。对我来说,它似乎适用于N = 10000000
(选择样本需要大约30秒)
library(BalancedSampling)
N = 10000000 # population size
n = 100 # sample size
p = rep(n/N,N) # inclusion probabilities
X = cbind(p,runif(N),runif(N),runif(N)) # matrix of 3 auxiliary variables
system.time(cube(p,X))
user system elapsed
31.31 0.02 31.42