Question

我正在尝试在R中使用Random Forest软件包作为我的数据集，其中包括分类和数字变量以及一些不需要的颜色＆＃34; （我不希望将其作为我的预测变量包括在内的颜色）。此外，我缺少一些我想要的变量（应该用作预测变量）。我该怎么处理？

Answer 1

我假设您的数据集看起来像这样。

mydf <- data.frame(target = c(1:100), 
                   param1 = c(rep("a",10), rep("b", 50), 
                              rep("c", 20), rep("a",15), rep(NA, 5)), 
                   param2 = runif(100,0,1), 
                   param3 = c(runif(20,1,10),runif(50,20,30),rep(NA,10),
                              runif(10,0,5), runif(10,70,80)))

仅使用所需的列。

一个。您可以在公式中指定要在随机林中使用的列。 myrf <- randomForest(target ~ param1 + param2, mydf) # this excludes param3

湾否则，您可以通过仅保留所需的列来对数据集进行子集化。
```
mydf2 <- mydf[,c(target,param1,param2]
myrf <- randomForest(target ~ ., mydf2)
```
处理NA值。

一个。你可以尝试将它们归咎于它们。

湾或者您可以使用另一个可以处理它们的库，例如rpart。

最后，我建议你看看这个帖子。

How to build random forests in R with missing (NA) values?

随机森林混合了分类，数字和＆＃34;不需要的＆＃34;包含缺失值的变量

1 个答案: