我正在对语言数据进行回归,我希望预测句子的数字情感值。我的数据是120x531。我使用所谓的词袋方法,因此我的数据相对稀少。
我想从一个简单的线性回归模型开始,所以我的代码基本上是这样的:
ctrl = trainControl(method="cv", number=10)
model.valence.lm = train(data[,5:531], data[,2], model = "lm", trControl = ctrl)
model.valence.lm
然而,插入符似乎混淆了线性模型和随机森林,所以我得到以下输出(特别参见第一行):
Random Forest
120 samples
527 predictors
No pre-processing
Resampling: Cross-Validated (10 fold)
Summary of sample sizes: 108, 108, 108, 108, 108, 108, ...
Resampling results across tuning parameters:
mtry RMSE Rsquared RMSE SD Rsquared SD
2 2.594079 0.2786009 0.1236510 0.1612251
32 2.459950 0.1920956 0.1886138 0.1484976
526 2.639718 0.1028518 0.2459268 0.1067835
RMSE was used to select the optimal model using the smallest value.
The final value used for the model was mtry = 32.
这让我更加困惑的是,我基本上复制并粘贴了之前项目中的代码(这在哪里工作)。有没有人知道为什么会这样?我检查了我的数据对象,显然我使用的功能是整数(不是数字/浮点数)。这可能是一个可能的解释吗?
答案 0 :(得分:2)
随机森林或" rf"是method
参数的默认参数。您已设置model
参数,该插入符号已接受但没有投诉但被忽略。使用method="lm"
。