我有一个相对较大的数据:
超过370,000个观测值,250个等级的分类因变量,10个独立变量,包括数字和分类变量。
我想进行10倍交叉验证进行模型比较(包括'rpart'中的分类树模型,包'e1071'中的svm',包'kknn'中的kknn,包''adabag'中的增强和装袋)
在阅读了这些模型的手册之后,我尝试编写模型表演的代码,但我真的不知道如何执行10倍的CV。
其实我已经尝试了,但我是新来的R. 我真的需要帮助10倍CV的代码或功能。
这是我的代码:
w <- read.csv('D:/R code/animal2.csv',header = T)
names(w)
[1] "cluster_ward" "AAT0" "ARIDITY" "TOPO" "TMAX"
[6] "PREMAX" "PREMIN" "AMT" "SU_CODE90" "T_OC"
[11] "ELEMAX"
nrow(w)
[1] 370827
w$TOPO <- as.factor(w$TOPO)
w$SU_CODE90 <- as.factor(w$SU_CODE90)
library(rpart.plot)
fit1 <- rpart(cluster_ward ~., w)
pred1 <- predict(fit1, w, type="class")
library(e1071)
fit2 <-svm(cluster_ward~., data=w, kernal="sigmoid")
pred2 <- predict(a, w)
library(kknn)
set.seed(1000)
fit3 <- kknn(cluster_ward~., train=w, test=w)
pred3 <- fit3$fit
library(adabag)
set.seed(1000)
fit4 <- boosting(cluster_ward~., w)
pred4 <- predict(fit4,w)$class
library(adabag)
set.seed(1000)
fit5 <- bagging(cluster_ward~., w)
pred5 <- predict(fit5,w)$class
有人告诉我包'cvTools'或'caret'可以预先形成k-fold CV,但我仍然无法使用这些包或函数成功执行。
答案 0 :(得分:2)
我通常更喜欢自己实现CV,因为它相对简单,让您可以控制可以使用的算法和评估指标。
k = 10 # Number of k-folds
id = sample(1:k,nrow(data),replace=TRUE)
list = 1:k
for (i in 1:k){
trainingset = subset(data, id %in% list[-i])
testset = subset(data, id %in% c(i))
# Training
fit.glm = glm(cluster_ward ~ ., data=trainingset)
# Testing
pred = predict(fit.glm, testset, type="response")
real = testset$cluster_ward
rmse = sqrt(sum((pred - real) ^ 2))/length(real)
}
答案 1 :(得分:1)
kahlo给出的答案很好,但它没有给出相同大小的折叠。在这里,我介绍我的工作方法
k = 10 # For k-folds
data$class<-sample(1:nrow(data),nrow(data),replace=FALSE)
len.data <- length(data$class)
for(i in 1:k){
data$class[data$class <= i*len.data/k & data$class > (i-1)*len.data/k]<-i
}
list = 1:k
for (i in 1:k){
train.set = subset(data, class %in% list[-i])
test.set = subset(data, class %in% i))
## Train using train.test
## Test using test.set
}