我正在努力理解rpart中树分类的输出。我不明白根节点错误'根节点错误'计算(printcp函数的输出之一)。我也无法在rpart包描述中找到它的定义。
例如,我加载了巨大的数据:
library(titanic)
library(rpart)
tt<-titanic_train
table(tt$Survived)
因此,我们有549名幸存者和342人死亡。共891人。
fit<-rpart(Survived ~Pclass+Sex+Age+ SibSp+Parch+Fare+Embarked , data=tt)
printcp(dend)
给出结果:
Regression tree:
rpart(formula = Survived ~ Pclass + Sex + Age + SibSp + Parch +
Fare + Embarked, data = tt)
Variables actually used in tree construction:
[1] Age Fare Pclass Sex SibSp
Root node error: 210.73/891 = 0.23651
n= 891
CP nsplit rel error xerror xstd
1 0.295231 0 1.00000 1.00538 0.016124
2 0.073942 1 0.70477 0.70896 0.033228
3 0.027124 2 0.63083 0.63570 0.031752
4 0.026299 3 0.60370 0.62105 0.032815
5 0.023849 4 0.57740 0.61154 0.032884
6 0.021091 5 0.55356 0.58294 0.032127
7 0.010000 6 0.53246 0.57097 0.032402
这里的根节点错误意味着在添加任何节点之前的错误分类错误,我是对的吗?因此,如果我假设每个人都幸存下来,那么在891中的342个案例中我将会出错,因此根节点错误应为342/891。在输出中我有210.73 / 891。
我将非常感谢帮助我了解210.73在Root节点错误中的含义以及如何计算这个泰坦尼克号数据。我整天都在寻找它,却找不到任何解释。
提前感谢您的帮助。
答案 0 :(得分:0)
根节点错误是在第一个(根)拆分节点上正确排序的记录的百分比。
有关更多信息,请参见Understanding the Outputs of the Decision Tree Tool。