我已经开始使用10倍交叉验证为人工数据集创建一些训练和测试集:
rows <- 1000
X1<- sort(runif(n = rows, min = -1, max =1))
occ.prob <- 1/(1+exp(-(0.0 + 3.0*X1)))
true.presence <- rbinom(n = rows, size = 1, prob = occ.prob)
# combine data as data frame and save
data <- data.frame(X1, true.presence)
id <- sample(1:10,nrow(data),replace=TRUE)
ListX <- split(data,id)
fold1 <- data[id==1,]
fold2 <- data[id==2,]
fold3 <- data[id==3,]
fold4 <- data[id==4,]
fold5 <- data[id==5,]
fold6 <- data[id==6,]
fold7 <- data[id==7,]
fold8 <- data[id==8,]
fold9 <- data[id==9,]
fold10 <- data[id==10,]
trainingset <- subset(data, id %in% c(2,3,4,5,6,7,8,9,10))
testset <- subset(data, id %in% c(1))
我只是想知道是否有更简单的方法来实现这一目标以及如何执行分层交叉验证,以确保班级先验(true.presence)在所有折叠中大致相同?
答案 0 :(得分:20)
createFolds
包的 caret
方法执行分层分区。以下是帮助页面中的一段:
...当y是试图平衡分裂中类别分布的因素时,随机抽样是在y(=结果)的水平内完成的。
以下是您的问题的答案:
library(caret)
folds <- createFolds(factor(data$true.presence), k = 10, list = FALSE)
和比例:
> library(plyr)
> data$fold <- folds
> ddply(data, 'fold', summarise, prop=mean(true.presence))
fold prop
1 1 0.5000000
2 2 0.5050505
3 3 0.5000000
4 4 0.5000000
5 5 0.5000000
6 6 0.5049505
7 7 0.5000000
8 8 0.5049505
9 9 0.5000000
10 10 0.5050505
答案 1 :(得分:11)
我确信(a)有一种更有效的方法来编写代码,并且(b)几乎可以肯定的是,某个包中的某个函数只会返回折叠,但这里有一些简单的代码可以给你一个想法如何做到这一点:
rows <- 1000
X1<- sort(runif(n = rows, min = -1, max =1))
occ.prob <- 1/(1+exp(-(0.0 + 3.0*X1)))
true.presence <- rbinom(n = rows, size = 1, prob = occ.prob)
# combine data as data frame and save
dat <- data.frame(X1, true.presence)
require(plyr)
createFolds <- function(x,k){
n <- nrow(x)
x$folds <- rep(1:k,length.out = n)[sample(n,n)]
x
}
folds <- ddply(dat,.(true.presence),createFolds,k = 10)
#Proportion of true.presence in each fold:
ddply(folds,.(folds),summarise,prop = sum(true.presence)/length(true.presence))
folds prop
1 1 0.5049505
2 2 0.5049505
3 3 0.5100000
4 4 0.5100000
5 5 0.5100000
6 6 0.5100000
7 7 0.5100000
8 8 0.5100000
9 9 0.5050505
10 10 0.5050505
答案 2 :(得分:7)
@joran是对的(关于他的假设(b))。 dismo :: kfold()就是你要找的。 p>
所以在最初的问题中使用data
:
require(dismo)
folds <- kfold(data, k=10, by=data$true.presence)
给出一个长度为nrow(data)
的向量,其中包含每行数据的折叠关联。
因此,data[fold==1,]
返回第一个折叠,data[fold!=1,]
可用于验证。
编辑6/2018:我强烈支持使用@gkcn建议的插入包。它更好地集成在tidyverse工作流程中,并且更加积极地开发。去吧!