我正在尝试对数据集进行随机森林模型预测两个分类变量。我已附上以下代码,然后返回此错误。变量Customer Count位于数据集中,并且仍会引发此错误。
这是我的预测模型。我试图重新组织数据集,以避开“客户计数”作为第一个变量。我也尝试过修剪数据集,使其不那么大,也许这是一个问题。
# Load the dataset and explore
library(readxl)
rawData <- read_excel("StrippedTransformerModelData.xlsx")
View(rawData)
head(rawData)
str(rawData)
summary(rawData)
# Split into Train and Validation sets
# Training Set : Validation Set = 70 : 30 (random)
set.seed(100)
train <- sample(nrow(rawData), 0.7*nrow(rawData), replace = FALSE)
TrainSet <- rawData[train,]
ValidSet <- rawData[-train,]
summary(TrainSet)
summary(ValidSet)
# Create a Random Forest model with default parameters
model1 <- randomForest(data = TrainSet, Failure ~ ., ntree = 500, mtry = 6, importance = TRUE)
model1
Error in eval(predvars, data, env) : object 'Customer Count' not found.
可以肯定的是,变量Customer Count在数据集中,而我不知道为什么它说没找到。