为什么我会得到比分类树大的交叉验证错误?

时间:2019-06-03 19:14:14

标签: r classification cross-validation rpart pruning

我使用rpart函数创建了一个分类树,并将xval = 10设置为10倍交叉验证。您可以在下面看到代码。

RegTreeOhneSelektion <- rpart(LogStundenlohn ~ Geschlecht + Bundesland + ArbeitsmarkterfahrungVollzeit +
                          I((ArbeitsmarkterfahrungTeilzeit^2)/100)+ ArbeitsmarkterfahrungTeilzeit +
                          I((ArbeitsmarkterfahrungVollzeit^2)/100) + DauerUnternehmenszugehörigkeit   + öffenticherDienst + 
                          Branche + Unternehmengroesse +I((DauerUnternehmenszugehörigkeit^2)/100) 
                           + Migrationshintergrund +Bildungsgrad
                        , data = subset(trainSet2015,Partizipation == 1),
                        method = "anova",control = rpart.control(cp = 0,xval = 10))

之后,我在交叉验证图上使用plotcp()函数,结果使我感到困惑。该图的起点产生的交叉验证误差大于1。如果分类树的交叉验证误差为未分类率最大为1,这怎么可能?

在下面您可以看到图和printcp()输出的开头

enter image description here

Root node error: 7248/14496 = 0.5

n= 14496 

           CP nsplit rel error  xerror
1  1.9674e-01      0   1.00000 1.03339
2  1.4307e-01      1   0.80326 0.80326
3  3.1802e-02      2   0.66018 0.66018
4  2.0557e-02      4   0.59658 0.60196
5  1.4487e-02      5   0.57602 0.58182

0 个答案:

没有答案