我使用rpart函数创建了一个分类树,并将xval = 10设置为10倍交叉验证。您可以在下面看到代码。
RegTreeOhneSelektion <- rpart(LogStundenlohn ~ Geschlecht + Bundesland + ArbeitsmarkterfahrungVollzeit +
I((ArbeitsmarkterfahrungTeilzeit^2)/100)+ ArbeitsmarkterfahrungTeilzeit +
I((ArbeitsmarkterfahrungVollzeit^2)/100) + DauerUnternehmenszugehörigkeit + öffenticherDienst +
Branche + Unternehmengroesse +I((DauerUnternehmenszugehörigkeit^2)/100)
+ Migrationshintergrund +Bildungsgrad
, data = subset(trainSet2015,Partizipation == 1),
method = "anova",control = rpart.control(cp = 0,xval = 10))
之后,我在交叉验证图上使用plotcp()
函数,结果使我感到困惑。该图的起点产生的交叉验证误差大于1。如果分类树的交叉验证误差为未分类率最大为1,这怎么可能?
在下面您可以看到图和printcp()
输出的开头
Root node error: 7248/14496 = 0.5
n= 14496
CP nsplit rel error xerror
1 1.9674e-01 0 1.00000 1.03339
2 1.4307e-01 1 0.80326 0.80326
3 3.1802e-02 2 0.66018 0.66018
4 2.0557e-02 4 0.59658 0.60196
5 1.4487e-02 5 0.57602 0.58182