R:校正残差

时间:2016-10-28 22:56:17

标签: r svm random-forest cross-validation knn

我正在尝试修正R中提供的Carseats数据集中的残差。我将从随机森林开始,并使用lamda = 0.1的支持向量机纠正这些残差,然后使用带有lamda =的KNN校正这些残差0.1。在每个步骤中,我将使用5倍CV来调整随机森林的参数mtry(3,5,10),svm中的gamma(0.01,.1,1,10)和k(1,5,10, 20)在KNN。我对此很陌生,我已经尝试过这个问题,但老实说,我不知道我是否做到了这一点。这就是我所拥有的:

set.seed (1)

##Random forest
#mtry=3
rf3 <- randomForest(Sales ~ ., 
 data = Carseats, mtry = 3, ntree = 500,
  importance = TRUE)

#mtry=5
rf5 <- randomForest(Sales ~ ., 
 data = Carseats, mtry = 5, ntree = 500,
  importance = TRUE)

#mtry=10
rf10 <- randomForest(Sales ~ ., 
 data = Carseats, mtry = 10, ntree = 500,
  importance = TRUE)

#cross validation to pick best mtry -- am getting an error
library(tree)
cv.carseats = rfcv(trainx=Carseats[,-11], trainy=Carseats[,-11],cv.fold=5)
cv.carseats

##SVM
library(e1071)
f = svm(Sales~.,data=Carseats)

#gamma = 0.01
svm(Sales~., data=Carseats, type = NULL, kernel = "polynomial", degree = 3,
gamma = if (is.vector(x)) .01 
else 1 / ncol(x),
coef0 = 0, cost = 1)

#gamma = 0.1
svm(Sales~., data=Carseats, type = NULL, kernel = "polynomial", degree = 3,
gamma = if (is.vector(x)) 0.1 
else 1 / ncol(x),
coef0 = 0, cost = 1)

#gamma = 1
svm(Sales~., data=Carseats, type = NULL, kernel = "polynomial", degree = 3,
gamma = if (is.vector(x)) 1 
else 1 / ncol(x),
coef0 = 0, cost = 1)

#gamma = 10
svm(Sales~., data=Carseats, type = NULL, kernel = "polynomial", degree = 3,
gamma = if (is.vector(x)) 10 
else 1 / ncol(x),
coef0 = 0, cost = 1)

#cross validation to pick best gamma
tune.out=tune(svm,Sales~.,data=Carseats,kernel ="polynomial",
ranges =list(cost=c(0.01,0.1,1,10)))

感谢任何反馈!

1 个答案:

答案 0 :(得分:0)

首先,这可能属于交叉验证而非堆栈溢出,因为您的问题似乎是实验设计而不是编码难度。

其次,如果您要使用许多不同的模型进行机器学习,我建议您查看caret。他们拥有大量基础设施,用于培训和测试具有不同交叉验证架构和许多其他参数选项的模型,因此您可以节省大量时间进行实验设计。这可能会解决您遇到的大多数问题。

第三,当你说你正在使用&#34; lamda = 0.1&#34;时,我不知道你在说什么。为您提供SVM和KNN模型。这两个模型都没有lambda作为参数,所以我不确定你在做什么。这可能只是我不熟悉的东西,但如果是这样的话,可能不足以证明解释或链接到一个。

最后,虽然使用一个模型来模拟另一个模型的残差并不常见,但继续使用第三个模型建模残差是一个小机器学习初始 - 即。您几乎肯定会开始过度拟合您的数据。如果您对第一个随机森林模型的结果不满意,我建议您不要尝试拟合残差,而是尝试Boosted Decision Tree而不是Adaboost(注意:可以使用其他模型,决策树只是最常见的)。这些模型的功能类似于决策树,但随着更多树木的建立,它们会对其他树木错误分类的样本进行更强烈的采样,通常通过关注难点样本来构建更强大的分类器。因此,它们也容易过度拟合,但大多数实现都会包含帮助避免这种情况的工具。