R&C的Caret包混淆了线性模型(lm)和随机森林

时间:2016-09-05 12:46:30

标签: r r-caret

我正在对语言数据进行回归,我希望预测句子的数字情感值。我的数据是120x531。我使用所谓的词袋方法,因此我的数据相对稀少。

我想从一个简单的线性回归模型开始,所以我的代码基本上是这样的:

ctrl = trainControl(method="cv", number=10)
model.valence.lm = train(data[,5:531], data[,2], model = "lm", trControl = ctrl)
model.valence.lm

然而,插入符似乎混淆了线性模型和随机森林,所以我得到以下输出(特别参见第一行):

Random Forest 

120 samples
527 predictors

No pre-processing
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 108, 108, 108, 108, 108, 108, ... 
Resampling results across tuning parameters:

  mtry  RMSE      Rsquared   RMSE SD    Rsquared SD
    2   2.594079  0.2786009  0.1236510  0.1612251  
   32   2.459950  0.1920956  0.1886138  0.1484976  
  526   2.639718  0.1028518  0.2459268  0.1067835  

RMSE was used to select the optimal model using  the smallest value.
The final value used for the model was mtry = 32. 

这让我更加困惑的是,我基本上复制并粘贴了之前项目中的代码(这在哪里工作)。有没有人知道为什么会这样?我检查了我的数据对象,显然我使用的功能是整数(不是数字/浮点数)。这可能是一个可能的解释吗?

1 个答案:

答案 0 :(得分:2)

随机森林或" rf"是method参数的默认参数。您已设置model参数,该插入符号已接受但没有投诉但被忽略。使用method="lm"