Question

使用以下代码，我正在尝试执行留一法交叉验证。

library(e1071)
library(plyr)

trainingdata<-read.table('data.txt', sep=",", header=TRUE)
f0 <- function(x) any(x!=1) & any(x!=0) & is.numeric(x)
trainingdata<-cbind(colwise(identity, f0)(trainingdata))

C <- 0
M <- 0
count <- nrow(trainingdata)
for(i in 1:count)
{
   actual <- trainingdata[i,]$label
   trainingtemp <- trainingdata[-c(i), ]

   model <- svm(factor(label)~., data=trainingtemp, method="C-classification",     
   kernel="sigmoid", C=0.1, gamma=0.01, cross=10)

   testdata <- trainingdata[i, ]
   prediction <- predict(model, testdata)
   prediction <- paste(prediction)

   if(actual==prediction)
      C <- C+1
   else
      M <- M+1
}

write.csv(data.frame(C,M))

我不明白的问题是我总是得到相同的C值（正确分类）和M（错误分类）。结果在以下条件下相同：

1 - 我尝试过使用不同的Cost和gamma值（也尝试过best.svm（）函数）

2 - 尝试了不同的分类方法+不同的内核。

3 - 数据集中总共有大约50个功能。甚至，如果在构建模型时使用任何一个特征，即（svm（label~x1 ...）或svm（label~x2 ...），结果都没有影响。

代码有问题吗？数据非常大，可以在这里发布。

Answer 1

使用iris数据并为您的svm调用改变伽马值，我确实得到了不同的预测。
我建议您将所有预测放入向量中，并在cv完成后比较预测和正确的标签。这样，您可以更轻松地检查预测是否确实发生了变化。
如果没有您的数据以及C和gamma的选择，我们将无法为您提供更多帮助。
（顺便说一句，留下一次性验证不推荐，因为你无法迭代它。你可能想要浏览例如what is said about validation schemes on crossvalidated）
< / LI>

Answer 2

我真的不太了解R或者你不同的电话正在做什么。我知道你正试图做一次出局（LOO）。以下是一些要检查的事项：

您正在规范您的数据吗？使所有值在0到1之间（或介于-1和1之间），线性地或使用均值和标准差？对于SVM来说非常重要，对于RBF内核来说更是如此，如果你不这样做，你很容易陷入数值困境。
您是否系统地参数搜索C（或RBF内核的C和G）的良好值？进行交叉验证还是保留设置？从我对你的R代码的理解来看，你似乎并没有这样做。你为什么不尝试在你的代码之外的两个fors一个测试2 ^ [ - 10 ... 0]的伽玛和2 ^ [ - 5 ... 5]的C？这就是所谓的交叉验证，我认为你只是在进行内部迭代并缺少一些for循环。

Answer 3

这可以特定于您的数据，因为不同的数据我也得到不同的值（如cbeleites指出）。

因此，如果您可以将数据放在一些可共享的地方。

同样作为次要评论，我没有理由在构建模型时使用“cross = 10”。

SVM交叉验证始终相同

3 个答案: