当使用随机森林进行X_train,y_train,X_test,y_test时,我有一个问题。
训练数据时,我会这样使用:
rf_train <-randomForest(y = y_train,x = X_train,ntree = 1000)
但是,我有一个问题。哪个是正确的预测新数据。 :
1。
randomForest(y = y_test,x = X_test,ntree = 1000)
2。
预测(rf_train,X_test)
请告诉我哪一个是正确的。
答案 0 :(得分:2)
在这种情况下,您可以结合使用函数签名和您的直觉(以及文档)来回答自己的问题。 predict
函数是将随机森林模型应用于新测试数据时应使用的功能。调用时,predict
将第一个参数作为对randomForest
的调用输出的模型。它将包含测试数据的数据帧或矩阵作为第二个参数,每个测试用例一行。正如documentation所提到的,至少在使用回归建立的随机森林模型的情况下,输出是响应的向量,每个测试用例/输入矩阵的行/测试用例的数据帧对应一个响应