在youtube的帮助下,我尝试建立一个随机森林。我对ML概念真的很陌生,所以我尝试将所有内容都设为默认设置。
首先,我给我的训练集2个因素,这些因素本身存在差异。
主要问题是我得到0%的准确度,就像所有内容都被预测为 0 一样,因为它是主要值(0的70%占1的30%)>
代码在这里:
pedes.10 <- cas.10[which(cas.10$Casualty_Type == "0"),]
pedes.10$Age_Band_of_Casualty <- as.factor(pedes.10$Age_Band_of_Casualty)
# to make Injury only on 1 and 2 value
for (i in 1:nrow(pedes.10)) {
x <- ifelse(pedes.10$Casualty_Severity != "3", 1, 0)
pedes.10$Injury <- x
}
#Starting the random forest
rf.train.1 <- pedes.10[, c("Age_Band_of_Casualty", "Sex_of_Casualty")]
rf.label <- as.factor(pedes.10$Injury)
set.seed(9299)
rf.1 <- randomForest(x = rf.train.1, y = rf.label, importance = FALSE, ntree = 3000)
rf.1
varImpPlot(rf.1)
在第一种情况下,我的准确度为0%,在另一种情况下,则为100%。我确实知道我做错了什么,但我不知道该怎么办...
数据集在此处:(2010年伤亡人数)-> https://data.gov.uk/dataset/cb7ae6f0-4be6-4935-9277-47e5ce24a11f/road-safety-data
感谢帮助。
在此处放置图片
放置图片