分类树模型中的根节点错误

时间:2016-02-25 12:09:48

标签: r machine-learning rpart

我正在努力理解rpart中树分类的输出。我不明白根节点错误'根节点错误'计算(printcp函数的输出之一)。我也无法在rpart包描述中找到它的定义。

例如,我加载了巨大的数据:

library(titanic)
library(rpart)

tt<-titanic_train
table(tt$Survived)

因此,我们有549名幸存者和342人死亡。共891人。

fit<-rpart(Survived ~Pclass+Sex+Age+ SibSp+Parch+Fare+Embarked , data=tt)
printcp(dend) 

给出结果:

Regression tree:
rpart(formula = Survived ~ Pclass + Sex + Age + SibSp + Parch + 
    Fare + Embarked, data = tt)

Variables actually used in tree construction:
[1] Age    Fare   Pclass Sex    SibSp 

Root node error: 210.73/891 = 0.23651

n= 891 

        CP nsplit rel error  xerror     xstd
1 0.295231      0   1.00000 1.00538 0.016124
2 0.073942      1   0.70477 0.70896 0.033228
3 0.027124      2   0.63083 0.63570 0.031752
4 0.026299      3   0.60370 0.62105 0.032815
5 0.023849      4   0.57740 0.61154 0.032884
6 0.021091      5   0.55356 0.58294 0.032127
7 0.010000      6   0.53246 0.57097 0.032402

这里的根节点错误意味着在添加任何节点之前的错误分类错误,我是对的吗?因此,如果我假设每个人都幸存下来,那么在891中的342个案例中我将会出错,因此根节点错误应为342/891。在输出中我有210.73 / 891。

我将非常感谢帮助我了解210.73在Root节点错误中的含义以及如何计算这个泰坦尼克号数据。我整天都在寻找它,却找不到任何解释。

提前感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

根节点错误是在第一个(根)拆分节点上正确排序的记录的百分比。

有关更多信息,请参见Understanding the Outputs of the Decision Tree Tool