我有一个数据集,我需要将其分成三个不同大小的互斥随机样本。我用过:
testdata<-sample(47959,14388,replace=FALSE,prob=NULL)
尝试创建一个样本(数据集大小为47959),但我不知道如何将这个样本变成R中可操作的数据集。
答案 0 :(得分:2)
一些数据:
set.seed(42)
x <- sample(20, size=100, replace=TRUE)
head(x)
## [1] 19 19 6 17 13 11
创建所有1:3的索引,并使用它来对数据进行子集化:
i <- sample(1:3, size=length(x), replace=TRUE)
head(i)
## [1] 2 1 1 2 3 3
现在将其分为三组(许多方法):
x.grouped <- split(x, i)
str(x.grouped)
## List of 3
## $ 1: int [1:31] 19 6 15 20 9 5 8 9 18 20 ...
## $ 2: int [1:30] 19 17 14 10 6 10 19 3 10 19 ...
## $ 3: int [1:39] 13 11 15 3 15 19 12 2 8 19 ...
三组的相对大小会随机变化。
indices
表示每组中您想要的大小。
indices <- c(20, 50, 30)
indices.cs <- cumsum(indices)
x.unsorted <- sample(x)
xs.grouped.sized <- mapply(function(a,b) x.unsorted[a:b],
1+lag(indices.cs, default=0),
indices.cs,
SIMPLIFY=FALSE)
str(xs.grouped.sized)
## List of 3
## $ : int [1:20] 2 7 13 1 19 7 14 20 19 1 ...
## $ : int [1:50] 13 6 19 4 19 20 20 11 17 3 ...
## $ : int [1:30] 1 10 7 16 9 16 17 11 14 8 ...
indices <- sample(rep(1:3, times = c(20,50,30)))
str(split(x, indices))
## List of 3
## $ 1: int [1:20] 6 3 10 6 10 20 17 8 5 13 ...
## $ 2: int [1:50] 19 19 17 15 14 15 19 20 3 19 ...
## $ 3: int [1:30] 13 11 15 19 10 12 3 11 14 1 ...