我正在做Bagging,我找出了选择学习集(训练)的代码。
数据集有683个观察结果。
# data set named cancer
learningset <- cancer[sample(683,replace=TRUE),]
我需要获得测试集,从原始数据集“癌症”中我的学习集中从未选择过哪些观察结果。
我一直在尝试很多功能,看起来它们不起作用,因为我仍然可以看到学习集中存在一些观察结果。
答案 0 :(得分:4)
您可以尝试setdiff
功能:
training.indices <- sample(683, replace=TRUE)
test.indices <- setdiff(1:683, training.indices)
然后:
learningset <- cancer[training.indices,]
testset <- cancer[test.indices,]
答案 1 :(得分:2)
或者你可以像这样使用-
运算符:
ind <- sample( 683 , replace = TRUE )
learningset <- cancer[ ind , ]
testset <- cancer[ - ind , ]