如何不从R中的数据中选择观测值

时间:2013-04-14 04:20:18

标签: r statistics sample

我正在做Bagging,我找出了选择学习集(训练)的代码。

数据集有683个观察结果。

# data set named cancer
learningset <- cancer[sample(683,replace=TRUE),]

我需要获得测试集,从原始数据集“癌症”中我的学习集中从未选择过哪些观察结果。

我一直在尝试很多功能,看起来它们不起作用,因为我仍然可以看到学习集中存在一些观察结果。

2 个答案:

答案 0 :(得分:4)

您可以尝试setdiff功能:

training.indices <- sample(683, replace=TRUE)
test.indices <- setdiff(1:683, training.indices)

然后:

learningset <- cancer[training.indices,]
testset <- cancer[test.indices,]

答案 1 :(得分:2)

或者你可以像这样使用-运算符:

ind <- sample( 683 , replace = TRUE )
learningset <- cancer[ ind , ]
testset <- cancer[ - ind , ]