调整R中的SVM参数 - 过度拟合

时间:2017-05-01 00:25:05

标签: r classification libsvm

我目前正在开发一个项目,我需要为二进制分类问题训练SVM(RBF内核)分类器。我正在使用R和LIBSVM(包e1071),并正在探索使用tune函数来调整SVM的参数。

我的R代码如下:

svmTune <- tune(svm, train.x=x, train.y=y, kernel='radial',
                ranges=list(cost=10^(-5:5), gamma=seq(0, 100, 0.5)))

考虑到在我的问题中,我正在处理不平衡的数据集,我还考虑添加class.weights参数:

svmTune <- tune(svm, train.x=x, train.y=y, kernel='radial',
                ranges=list(cost=10^(-5:5), gamma=seq(0, 100, 0.5)),
                class.weights=c('0'=numZeros/(numZeros+numOnes),
                                '1'=numOnes/(numZeros+numOnes)))

我的问题是我似乎得到了一个无用的分类器:我总是得到最好的模型(svmTune$best.model)一个SVM,其支持向量的数量与训练数据的长度相同(或非常接近) ,如35个训练实例的34 SV);并且该模型要么记忆训练数据(训练数据的AUC为1),要么在预测训练数据时失败(AUC为0.5)。关于测试数据的性能,我的AUC总是为0.5 ......

我知道我们可以创建一个tune.control对象来调整几个控件参数,我也试图改变它的一些参数,但似乎无法改善我的结果....

有人可以帮我理解我做错了什么吗?我不应该像这样以自动方式为SVM尝试几个参数吗?

1 个答案:

答案 0 :(得分:0)

这似乎是过度拟合的情况。由于数据点很少,因此算法默认只记忆数据并不奇怪。尝试阅读有关参数调整和/或模型选择的交叉验证,网上有很多很棒的资源。本书有很多使用R的例子:http://www-bcf.usc.edu/~gareth/ISL/